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Resume 


Bien que les technologies audio 3D soient arrivees a maturite, il semblerait que la 
stereophonie ait encore quelques beaux jours devant elle, au meme titre que les repre¬ 
sentations visuelles en deux dimensions. De la meme fagon, que I’on pent se demander 
ce qu’apporte veritablement la troisieme dimension a une interface graphique {e.g. la 
metaphore du bureau), nous souhaiterions determiner les raisons qui justifient verita¬ 
blement I’utilisation de la spatialisation sonore, si ce n’est le raffinement esthetique on 
I’immersion. Concretement, nous nous posons la question de son ergonomie, done de 
la fagon dont elle est mise en oeuvre et dont on elle pent etre fonctionnalisee. Dans 
notre approche, les facteurs humains acquierent une grande importance, puisque e’est 
dans le cadre d’une tache judicieusement choisie, que nous definirons les principes qui 
gouvernent la conception d’une interface sonore 3D. 

Apres un premier examen de la litterature, il semblerait que les indices de la loca¬ 
lisation auditive ne soient pas tres fiables et que les differences spatiales jouent plutot 
un role de facilitation. Typiquement, la capacite des technologies audio 3D a faciliter la 
discrimination et la reconnaissance de multiples sources concurrentes (« effet cocktail 
party ») leur confere un grand potentiel pour les applications de telecommunication et de 
travail collaboratif, telles que la teleconference. En outre, I’extreme rapidite du systeme 
auditif et sa capacite a orienter I’attention visuelle, rend I’audition tres utile pour les 
systemes d’alarme, particulierement lorsqu’un evenement survient en dehors du champ 
de vision on que le canal visuel d’information est surcharge. Or, nous ne pouvons nous 
resigner au role de second plan, auxquels les indices de la localisation auditive semblent 
cantonnes. La position spatiale d’un son communique, en soi, une information, donnant 
acces a une connaissance plus abstraite, que la simple position d’une cible. La moda- 
lite auditive pent done etre utilisee comme support pour la representation de donnees 
analytiques sur des phenomenes a reference spatiale, soit, etre porteuse, au meme titre 
qu’une carte, d’informations geometriques (localisation) et semantiques (descriptions). 
Cependant, il n’est pas dit qu’elle soit veritablement utilisable, etant donne le faible 
pouvoir de resolution spatiale de I’audition et le pen de travaux auxquels nous referer 
pour la perception active de I’espace {i.e. dans le contexte d’une interaction) et la cog¬ 
nition spatiale, en generale. 

Avant d’entrer dans les details de la conception d’une interface Humain-Machine, 
nous avons voulu tester prealablement les capacites des indices de la localisation audi¬ 
tive a representer I’espace, lui meme. Or, la vision etant consideree comme le mode de 
perception dominant (en Occident) et la modalite la plus performante pour 1’acquisition 
de connaissances spatiales, nous avons assujetti notre reflexion au type de perspective, 
qu’offre la representation visuelle sur I’environnement. Notre evaluation des capacites 
representationnelles de la spatialisation sonore, a done ete realisee dans le contexte d’une 
perspective egocentrique (on vue « a la premiere personne »), qui offre le minimum d’in¬ 
formation par le canal visuelle. L’experience a pris la forme d’un Jen de navigation dans 
une ville virtuelle simplifiee on le joueur devait s’orienter en mettant a profit les informa- 



tions sonores qui lui etaient fournies. Les facteurs experimentaux concernaient, d’une 
part, le rendu sonore {Stereophonie vs. Binaural) et, d’autre part, la representation 
spatiale de I’information de position d’une cible {{{Direction, Distance) = coordon- 
nees polaires de la cible} vs. {{Direction, Distance) — direction et longueur du chemin 
le plus court vers la cible}). Globalement, seules les observations relatives a la tache 
d’orientation se sont revelees pertinentes. Par exemple, nous avons pu decrire assez pre- 
cisement differents comportements de localisation dynamique, plus ou moins efficaces, 
qui expliquent en partie les differences de performance obtenues globalement entre la 
stereophonie et le binaural (le binaural reduit le temps de prise de decision a chaque 
intersection). Nous avons aussi pu remarquer que la charge cognitive etait correlee a ces 
performances. En revanche, il s’est avere que la modalite auditive n’apportait rien a la 
connaissance spatiale qu’offrait deja I’exploration visuelle. L’enseignement, que nous en 
avons tire pour la suite, est qu’il etait preferable de ne pas surestimer la contribution 
des indices de la localisation auditive a la connaissance spatiale, lors d’une tache de 
navigation en vue subjective. Nous aurions pu tenter de corriger les defaut du protocole 
experimental, mais il nous a paru plus prudent d’assumer le fait que le systeme audi- 
tif humain n’accorde pas la priorite absolue a I’indice spatial. Nous avons done pris la 
decision d’orienter le contexte de notre etude de la conception des interfaces sonores de 
navigation, vers une perspective allocentrique (ou vue « a la troisieme personne »), pour 
laquelle la relation entre I’espace sonore et I’espace figure a I’ecran est potentiellement 
plus redondante. 

Nous avons etendu la problematique posee par une telle perspective visuelle, a celle 
des interfaces dites « zoomables ». Nous avons mene, tout d’abord, une reflexion sur le 
niveau de detail sonore et sur la fagon dont celui-ci devait etre asservi au niveau de detail 
visuel, arguant que Vutilisabilite du dispositif se juge a I’aune du degre de complemen- 
tarite et de redundance entre le point de vue et le point d’ecoute. Partant d’un cadre 
de reference pour la sonification de donnees, inspire du modele Data State Reference, 
nous avons definit 1’architecture d’une interface sonore zoomable. Elle s’articule autour 
d’une abstraction analytique, composee de deux noeuds audio, dont la semantique est 
emprunte a la norme MPEG-4 : les DirectiveSounds, sons monophoniques spatialises 
individuellement et les Surroundingsounds, sons multi-voix, capturant la configuration 
spatiale d’une scene sonore grace a un certain encodage {panning d’amplitude). Une 
fois developpe un premier prototype de I’interface, mettant en oeuvre les deux types de 
nceuds audio, le rendu visuel et les interactions basiques, nous avons realise une derniere 
experience tentant d’evaluer dans quelle mesure la substitution d’un ensemble de Direc- 
tiveSound par un unique Surrounding Sound, representait une degradation, d’un point 
de vue subjectif. Dans le cas d’une configuration quadriphonique des haut-parleurs, 
les resultats indiquent que, pour des sujets non-experts, les Surrounding Sound ne pre- 
sentent pas d’amelioration significative par rapport a une stereophonie upmixee, lorsque 
le point d’ecoute s’eloigne du point d’enregistrement de la scene ou qu’il pivote sur 
lui-meme. Les experts, en revanche, semblent plus a meme d’apprecier I’apport de la 
spatialisation sonore, mais seulement lorsque le nombre de sources qui constituent la 
scene est suffisamment important (superieur ou egale a six). 



Abstract 


Despite the maturity of 3D audio technologies, it seems that classical stereophony 
stands for many years to come, the same way two-dimensional graphics do. As one can 
ask if a graphical user interface {e.g. the desktop metaphor) really takes advantage of 
perspective, we would like to discover what makes positional 3D audio useful, if it is 
not aesthetic nicety or immersion. Concretely, we are dealing with usability and Human 
Computer Interaction, so we are interested, not only in the way to functionalize the 
spatial auditory cues, but also in the way a spatial auditory display should be imple¬ 
mented. Then, in our approach, human factors are of great importance, because we will 
only define design rules of our final 3D audio interface in the context of a relevant task 
that must be chosen. 

After a broad survey of the literature, it seems that the spatial auditory cues are 
not so reliable and that they mostly play a facilitation role. Typically, the strong capa¬ 
bility of 3D positional audio for the discrimination and recognition of multiple sources 
presented concurrently (« cocktail party effect »), confers to it a great potential for 
telecommunications and groupware applications, like teleconference. Moreover, the ex¬ 
tremely low response time of the auditory system and its ability to orient the visual 
attention, make it very useful for alarm and warning, particularly when an events oc¬ 
curs outside the field of view or when the visual channel is overloaded. Though, we even 
want to believe there are tasks for which spatial sound has an interest for itself, for 
example being a medium for spatial knowledge acquisition, representing georeferenced 
data, as a map does. However, we can doubt about its usability, considering the poor 
spatial resolution of human auditory system and the lack of previous works in the field 
of active auditory perception and spatial cognition. 

Consequently, we have tried to assess what are the potential of spatial auditory cues 
to represent the space itself. Assuming that (in the West) the ear gave way to the eye as 
the most important gatherer of information, we must organize our reflection around the 
two different kinds of perspective, that the vision can offer on a virtual environment. So 
the first study was concerned by an egocentric perspective (or first person view), which 
offers the minimum of visual information about the space being explored. The expe¬ 
riment is a game-like test, in which the task is to navigate in a simplified virtual town 
using auditory cues that are provided by differents targets. The experimental factor 
are : « How is the sound rendered » (Stereophony vs. Binaural) and « How is indicated 
the position of the target » {{{Direction, Distance) — polar coordinates of the target} 
vs. {{Direction, Distance) — Direction and length of the shortest path toward the tar¬ 
get}). In general, only the results concerning the orientation task was interesting. For 
example, we have observed and precisely described different localization behaviors, more 
or less effective, which explain the differences in performance globally obtained between 
binaural and sterephonic rendering (binaural globally reduced the time needed to make 
a decision at each crossroad). We have also noticed that the differences observed for 
the cognitive load were correlated to these performances. Nevertheless it turns out that 





the auditory modality did not bring further spatial knowledge to the one gained only 
by visual exploration. It has been concluded that it is preferable to not overestimate 
the role of the spatial auditory cues to spatial cognition when navigating with a first 
person view. Being conscious of some mistakes that have been done, we could have set 
things right, but it have seemed more prudent to bear the fact that the human auditory 
system do not give the priority to spatial cues. Then, we decided that the design rules 
of a 3D auditory display for navigation purposes should be preferably defined in the 
context of an allocentric perspective (or third person view), which offers potentially a 
more redundant relation between the auditory space et the one figured on screen. 

The issue of such visual perspective has been extended to encompass the issue of 
a zoomable interface. We first had a reflection on the level of details (LOD) of sound 
and the way it must be constrained by the visual one, arguing that the usability of the 
display is judged from the standpoint of the level of complementarity and redundancy 
between the point-of-view and the point-of-listening in the scene. Beginning with an 
unified framework for the design of auditory interfaces, inspired from the Data State 
Reference Model, we have defined the architecture of a zoomable auditory interface. It is 
based on a sonic abstraction composed of two audio nodes, whose semantic is borrowed 
from MPEG-4 standard : the Directivesounds, which are monophonic sounds indivi¬ 
dually spatialized, and the Surrounding Sounds, which are native multichannel sounds 
encoding the spatial configuration of a scene (amplitude panning). Once a first proto¬ 
type has been implemented, including the two audio nodes, visual rendering and basic 
interactions, we have realized a last experiment, assessing to which extend the repla¬ 
cement of a group of Directives ounds by a single SurroundingSound, is an impairment 
for the end-user. For a quadraphonic speakers configuration, we noticed that, for non¬ 
experts, SurroundingSounds did not represent any enhancement compared to a simple 
stereophonic upmix on four channel, when the listening-point is moved away from the 
recording point of the scene, or when it is rotated. Experts seemed to be more capable 
of appreciating the enhancement, but only when the number of sources in the scene was 
relatively important (more than six). 
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En tant qu’operateur de telecommunication et fournisseur de services, France Te¬ 
lecom a besoin d’experimenter aupres de ses clients, les innovations tectmologiques de- 
veloppees au sein de ses laboratoires de Recherche & Developpement. Ces innovations 
peuvent ameliorer I’experience de I’utilisateur sur plusieurs plans : celui de la perception 
{e.g. amelioration de la qualite d’un nouveau codage de la parole), celui de la cognition 
{e.g. reduction de la charge cognitive grace a une nouvelle forme de presentation de 
I’information) et celui de I’ergonomie (e.g. amelioration de la facilite d’utilisation d’une 
interface grace a de nouveaux modes d’interaction). Or, la spatialisation sonore est jus- 
tement I’une de ces technologies matures dont un utilisateur pourrait tirer profit, qui 
plus est disponible sur differentes plateformes materielles (telephones mobiles, consoles 
de jeu ou micro-ordinateurs). C’est done un besoin grandissant de retour d’experience 
qui a motive les travaux de recherche doctorale presentes id. Ne pouvant aborder tous 
les cas d’usage possibles, nous nous sommes concentres sur la navigation auditive dans 
des environnements virtuels dits « faiblement immersifs ». Bien que le cadre applicatif 
soit restreint, les problematiques, elles, le sont moins et requierent le croisement des 
points de vue d’un certain nombre de disciplines. En effet, la question n’est pas tant 
de determiner les fonctionnalites pertinentes d’une interface tirant profit des capacites 
d’un individu a localiser les sons dans I’espace, que de determiner comment la realiser 
et comment elle sera utilisee. En d’autres termes, notre etude est I’objet d’un double 
jeu de considerations indissociables : la perspective du concepteur de logiciels et celle de 
I’utilisateur. C’est cependant la seconde qui prime, puisque I’objectif est bien, in fine, 
d’evaluer I’apport du son 3D dans les applications grand public mettant en oeuvre les 
technologies de realite virtuelle. 


Etat actuel des recherches du domaine 

Les techniques de reproduction sonore 3D ont ete I’objet de nombreux travaux de 
recherche ces dix dernieres annees. L’un des projets les plus representatifs des avancees 
dans ce domaine est le projet Spatialisateur de I’lrcam, qui a conduit au developpe¬ 
ment du fameux processeur d’acoustique virtuel Spat~ [JW95], permettant de controler 
en temps reel les informations de localisation auditive et de reverberation. Get outil 
a beneficie, depuis lors, de nombreux raffinements et extensions visant a optimiser les 
traitements audio-numeriques et a diversifier les approches de la reproduction d’un 
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champ sonore. Par exemple, le projet europeen Carrouso^ [CAR02], qui a fait I’objet 
d’un partenariat avec France Telecom, a ete I’occasion d’integrer la Wave Field Syn¬ 
thesis aux outils de spatialisation existants. Le projet LISTEN^ [WE04], quant a lui, 
a permis I’elaboration d’un format multicanal destine a Leconte en binaural, permet- 
tant de dimensionner le cout de la spatialisation en fonction de la puissance de calcul 
disponible. Enfin, I’application ListenSpace [DW02] [VaaOSb] a ete developpee (dans le 
cadre du projet LISTEN) afin de repondre a une demande toujours plus forte en ma- 
tiere dioutil auteur permettant de decrire et de manipuler aisement les elements virtuels 
d’une scene sonore interactive. Tout ces elements se combinent, en s’appuyant sur le lan- 
gage de description de scene BIFS de la norme MPEG-4, pour former un environnement 
parfaitement adapte a la creation d’applications de realite virtuelle on augmentee. 

Par allelement, le developpement des applications video-ludiques a contribue a la de- 
mocratisation de ces technologies, pour ne pas dire, a leur essor. Un pas considerable 
a ete franchi lorsque le groupe de travail 3DWG (pour 3D Work Group) de I’lASIG 
(pour Interactive Audio Special Interest Group) a propose en 1997, une extension a 
I’API DirectX 3.0 de Microsoft, nommee 3Dxp [IAS97], permettant de tirer profit des 
accelerations offertes par les algorithmes tiers presents sur les cartes son du moment. 
Ce besoin de normalisation s’est ensuite affirme par la production successive en 1998 
et 1999 de deux publications, sous forme de recommandations nommees I3DL1 [IAS98] 
et I3DL2 [IAS99], definissant notamment les parametres et les fonctions que le groupe 
de travail estimait appropries pour la synthese et I’implementation des environnements 
sonores 3D. En effet, chaque fabriquant de materiel (Aureal, Creative labs, Sensaura, 
etc.) avait mise, a cette epoque, sur les technologies qu’il jugeait les plus prometteuses^, 
conduisant inevitablement a un panel de solutions materielles et logicielles tres hetero¬ 
gene, en termes de caracteristique et surtout de performance. II devenait alors difficile 
pour le programmeur, et plus encore pour le consommateur, de savoir ce qu’il etait 
en droit d’attendre d’un systeme on d’un jeu se vantant d’offrir I’experience sonore de 
la 3D. Le premier ensemble de recommandations {Level 1.0), plus general, s’est done 
propose de faire le point sur ce qui pouvait etre considere on non comme « son 3D 
interactif », d’aboutir a une terminologie commune afin d’eviter toute confusion et de 
rappeler succinctement les principaux facteurs devant etre pris en compte pour com- 
prendre les mecanismes de la localisation auditive. En outre, a des fins toujours aussi 
didactiques, les auteurs insistent bien sur la necessite de revaluation subjective, arguant 
que les systemes de reproduction ne peuvent etre compares uniquement sur la base de 
criteres purement objectifs et quantifiables. Ces recommandations donnent done un cer¬ 
tain nombre d’indications pour ceux qui souhaiteraient mener a bien une campagne de 
tests psychoacoustiques. Enfin, le second ensemble de recommandations {Level 2.0), 


^Creating, Assessing and Rendering in Real time Of high quality aUdio-viSual environments in 
MPEG-4 context 

’^Augmenting everyday environments through interactive soundscapes 

®Par exemple, Aureal avait parie sur le « realisme » avec ses technologies de « lance de rayons » (ou 
wavetracing) pour le rendu des effets de reverberation, tandis que Creative Labs preferait une approche 
« precalculee », plus econome (approche dite « statistique » de I’effet de salle, retenue par I’API EAX). 
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concerne plus precisement le rendu des effets environnementaux (reverberation, occlu¬ 
sion, obstruction, etc.), qui ont servi de references^ pour la conception des API DirectX 
9.0 et EAX 1.0, et leurs versions ulterieures. 

Ainsi, les technologies de spatialisation sonore etant desormais accessibles a tons 
et les concepts de base clairement etablis, il est devenu de plus en plus rare qu’un jeu 
ne les integre pas dans leur moteur de rendu sonore. Or, si ce n’est pas le realisme, 
la raison la plus souvent evoquee pour justifier leur utilisation est 1’augmentation du 
sentiment diimmersion pour des applications ne simulant qu’un champ visuel limite, 
comme c’est le cas dans le contexte d’un usage domestique. Meme si cela peut etre 
verifie dans certaines conditions, on peut toutefois objecter que cette sensation, comme 
celle de presence, n’est pas une qualite intrinseque d’un dispositif de rendu, mais qu’elle 
est conditionnee par un certain nombre de facteurs psychologiques, done propres a I’in- 
dividu. En particulier, on aurait tort de negliger I’influence que peut avoir I’activite du 
joueur sur son aptitude a faire abstraction du medium par lequel il accede au monde 
fictionnel (texte, image, son, etc.), afin d’imaginer ce dernier comme une realite auto- 
nome {i.e. The willing suspension of disbelief^). En d’autres termes, revaluation d’une 
interface sonore 3D ne se suffit pas non plus de tests psychoacoustiques, visant a me- 
surer le degre de fidelite de I’image sonore reproduite; elle se juge aussi a I’aune de 
Taction qu’elle guide, de la tache qu’elle permet d’accomplir. Une telle demarche, dite 
d'utilisabilite, est typique du domaine de I’Interaction Humain-Machine [IHM ou HCI, 
pour Human Computer Interaction). Elle se distingue clairement de la demarche psy- 
choacoustique, meme si elle s’appuie sur les resultats mis en evidence par cette discipline 
et lui emprunte un certain nombre de methodologies. Or, les mecanismes fondamentaux 
de la localisation auditive sont relativement bien connus a ce jour et il semblerait que 
les systemes audio 3D aient atteint un degre de sophistication suffisamment important 
pour que les questions relatives a Tinteraction et a Tusage preoccupent de plus en plus 
les chercheurs du domaine. 

Le fait que Ton observe une plus grande sensibilite aux facteurs humains pour la 
conception des interfaces sonores 3D, ne signifie pas qu’aucune etude majeure n’ait deja 
aborde une telle problematique et ne fasse aujourd’hui autorite. En effet, il est unanime- 
ment reconnu que la spatialisation sonore facilite la discrimination et la reconnaissance 
de multiples sources concurrentes (« effet cocktail party »), ce qui lui confere un grand 
potentiel pour les applications de telecommunication et de travail collaboratif, telles que 
la teleconference [CL91] [CL93]. Il est aussi reconnu que Textreme rapidite du systeme 
auditif et sa capacite a orienter Tattention visuelle, rend Taudition tres utile pour les 
systemes d’alarme, particulierement lorsqu’un evenement survient en dehors du champ 
de vision ou que le canal d’information visuel est surcharge. Ces predispositions pour la 
conscience de situation (ou situationnal awarness) conferent done aussi aux dispositifs 
audio 3D un tres grand potentiel pour les interfaces en environnements dits « a haut 

'‘Sous rimpulsion Jean-Marc Jot de Creative Labs., aussi I’un des principaux initiateurs et contri- 
buteurs du projet Spatialisateur de I’lrcam. 

® Suspension volontaire d’incredulite 
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stress », par exemple, la cabine de pilotage d’un avion de ligne [Beg93]. En revanche, 
avec le developpement des technologies de realite augmentee, on observe bien nn interet 
naissant pour les problematiques liees a la navigation auditive, tant dans le domaine 
du jeu on des arts numeriques [Gos04] [LP07], que pour la recherche experiment ale 
sur le comportement humain [LMGK05] [VDWS"’'06]. Nous en voulons pour preuve le 
lancement recent du projet Ear Toy [VDBP+07] qui, dans la continuite du projet LIS¬ 
TEN, s’est donne pour objectif de mettre en oeuvre et d’evaluer certains prototypes 
permettant de prefigurer de nouveaux usages et de nouveaux champs applicatifs de la 
realite virtuelle, dans lesquels la composante auditive (en particulier, les indices de la 
localisation) jouerait un role majeur. 

France Telecom, de son cote, porte un grand interet aux applications geolocalisees 
offrant de nouvelles opportunites pour la creation de services innovants sur dispositifs 
mobiles. En outre, le groupe est historiquement tres implique dans les recherches liees 
an georeferencement et an developpement des systemes de visualisation cartographique. 
Or, comme I’illustre parfaitement I’application Google Earth et le recent projet « Ville 
en 3D » de Pages Jaunes, le developpement d’interfaces de navigation 3D pour de tels 
systemes semble desormais incontournable. Le fait que la modalite auditive soit clai- 
rement delaissee dans ce type de service constitue une raison supplementaire pour se 
pencher sur le probleme de son usage dans un tel contexte. Ainsi, il est tout naturel que 
nous nous proposions d’evaluer I’apport de la spatialisation sonore pour la navigation 
dans un environnement virtuel. Gependant, ne souhaitant pas aborder les problema¬ 
tiques propres a la realite augmentee, engageant le corps lui meme dans le processus 
d’interaction, nous nous limiterons a un cas d’usage commun (et plus simple a mettre 
en oeuvre), soit une application domestique faiblement immersive, utilisant un ordina- 
teur personnel muni d’un simple ecran et de peripheriques d’entrees classiques (clavier 
et souris). L’utilisateur ne disposera done pas des informations vestibulaire et proprio¬ 
ceptive engendree par les mouvements du corps, mais pourra disposer d’indices visuels. 
Malgre tout, cela n’enleve ni n’ajoute rien a la complexite du probleme du point de vue 
de la gestion des interactions, du rendu sonore on encore des methodologies a mettre 
en oeuvre pour revaluation du dispositif. 

Objectifs et demarche scientifique 

Malgre la convergence evidente des interets academiques et industriels, nous n’avons 
pas voulu choisir « par hasard » de nous concentrer sur une tache de navigation audi¬ 
tive dans un environnement virtuel. Nous avons tente de motiver ce choix par une etude 
bibliographique relativement consequente, visant a determiner ce qui pouvait rendre 
pertinent I’utilisation de la spatialisation sonore dans une interface humain-machine, si 
ce n’est le raffinement esthetique on I’immersion. En outre, nous ne souhaitions pas nous 
resigner an role de facilitation {e.g. I’amelioration de I’intelligibilite en presence de bruit 
de fond on 1’acceleration de la capture visuelle d’une cible), auquel les etudes les plus 
courantes semblaient vouloir cantonner son usage. Reciproquement, il nous fallait etre 
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pragmatique et ne pas surestimer les capacites representationnelles des dispositifs de 
spatialisation sonore. Nous avons done tente de croiser les points de vue de differentes 
disciplines pour faire le point sur ce que Ton pouvait attendre de la spatialisation sonore 
dans les situations d’usage couramment rencontrees (en particulier, dans les jeux). En 
effet, il nous a fallu faire appel aussi bien a la psychoacoustique, qu’a la psychologie 
cognitive de I’audition, I’acoustique physique, le traitement du signal, I’ergonomie ou 
encore a la semiotique, pour comprendre : 

- I’habilete du systeme auditif pour la localisation d’une source sonore, en pre- 
nant en consideration I’influence potentielle de divers facteurs : la presence de 
plusieurs sources concurrentes, le mouvement des sources et de I’auditeur, la per¬ 
ception visuelle, etc. 

- le concept de qualite d’un dispositif de reproduction sonore, support de I’environ- 
nement virtuel audio, en consideration de ses caracteristiques techniques (qualite 
objective) et des attributs perceptifs sur lesquels se fonde un individu pour 
juger de la fidelite d’une image spatiale (qualite subjective). 

- les facteurs psychologiques devant etre pris en compte pour expliquer certaines 
differences inter-individuelles et I’influence de l’« attente » sur le jugement de 
preference. 

- les concepts de qualite de produit et de signification permettant d’expliquer 
comment peuvent etre « fonctionnalises » les indices de la localisation auditive 
pour la realisation d’une tache dans une interface. 

Suite a I’etude des capacites perceptives et cognitives du systeme auditif et des 
capacites representationnelles supposees des indices de la localisation, nous avons res- 
treint le cadre de nos travaux de recherche a la conception d’espaces sonores na- 
vigables, donnant acces, non seulement, a une connaissance de I’espace lui- 
meme (« Ou ? »), mais aussi aux informations dont il est le support structurel 
(« Quoi ? »). Une telle problematique est relativement pen etudiee dans la litterature, 
puisque la vision est consideree comme la modalite la plus performante pour 1’acqui¬ 
sition de connaissances spatiales. Pourtant, nous sommes convaincus que la modalite 
sonore pent pallier les limitations inherentes a la modalite visuelle et enrichir autant 
I’experience sensible que la connaissance qu’il est possible d’acquerir en explorant un 
environnement virtuel. 


Le premier objectif de nos travaux de recherche est done d’evaluer I’ap- 
port de la modalite auditive, d’un point de vue subjectif, pour la naviga¬ 
tion et plus generalement pour I’acquisition de connaissances spatiales. 


D’un point de vue experimental, I’originalite de notre demarche vient en partie 
de I’approche globale de revaluation qui, d’une part, porte sur les differentes di¬ 
mensions de Vutilisabilite (efficacite, efficience et satisfaction) et, d’autre part, met en 
regard la spatialisation sonore avec la stereophonie, seule veritable reference 
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pour une population non-experte. Enfin, souhaitant prendre en consideration la 
perspective de I’utilisateur et celle du concepteur de logiciels, nous prendrons 
un soin tout particulier a ce que les solutions de design proposees s’integrent dans une 
architecture logicielle bien structuree et coherente avec les modeles proposes dans la 
litterature. Afin de nous guider lors de la conception d’interfaces de navigation dans 
un environnement sonore 3D, il nous sera done necessaire de faire aussi le point sur 
les modeles existants pour la description de scenes audiovisuelles {e.g. VRML, 
MPEG-4, etc.) et, plus generalement, pour la conception de systemes de representa¬ 
tion visuelle et sonore d’informat ions (e.g. interfaces zoomables, modele « Data 
State Reference », etc.). Notre contribution portera plus exactement sur la gestion du 
niveau de detail d’une scene sonore, particulierement le rendu des sons d’ambiance qui 
constituent un veritable goulet d’etranglement pour la conception d’une interface de 
navigation dans des environnements virtuels de grande ampleur, notamment ceux que 
I’on rencontre dans des applications telles que Google Earth ou encore dans les jeux de 
strategie temps-reel. 


Le second objectif de nos travaux de recherche est done de concevoir 
une interface de navigation dans un environnement de grande taille et 
de proposer une solution a la surcharge inevitable des algorithmes de 
rendu sonore, qui s’exprimera par une reduction du niveau de detail des 
ambiances sonores. La distorsion eventuellement introduite devra etre 
evaluee pour determiner dans quelle mesure elle constitue une degrada¬ 
tion du rendu sonore, d’un point de vue subjectif. 


Organisation du manuscrit 

La premiere partie presente, dans les trois premiers chapitres, I’etat des connais- 
sances qu’il nous a ete necessaire d’acquerir pour conclure, d’une part, sur I’habilete 
spatiale du systeme auditif et, d’autre part, sur la qualite et Vutilisabilite d’une inter¬ 
face mettant en oeuvre les technologies de spatialisation sonore. Prenant le point de vue 
de la sonification de donnees, nous concluons, an terme du chapitre 4, que les capacites 
representationnelles de la spatialisation sonore sont relativement limitees, et qu’ayant 
un caractere fondamentalement analogique, elle est plus a meme de representer la struc¬ 
ture d’un ensemble de donnees {e.g. I’organisation spatiale de donnees georeferencees). 
Cela nous amene a restreindre le cadre de nos travaux de recherche dans les termes que 
nous avons enonces precedemment : la eonception d’espaces sonores navigables, donnant 
aeces, non seulement, a une eonnaissance de I’espace lui-meme (« Oil? »), mais aussi 
aux informations dont il est le support structurel (« Quoi ? »). Le chapitre 5 est alors 
I’occasion de passer en revue les connaissances relatives, d’une part, a la navigation au¬ 
ditive (perspective de I’utilisateur) et, d’autre part, a la conception des environnements 
sonores 3D (perspective du concepteur de logiciels). Suite a cet etat de I’art, nous deci- 
dons de structurer notre contribution selon les differentes perspectives qu’offre le point 
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de vue sur I’environnement : une locomotion pedestre {perspective egocentrique) et une 
locomotion en survol {perspective allocentrique). Ces deux modes d’acquisition visuelle 
constituent deux contextes d’usage, soit deux ensembles de problematiques que nous 
traitons separement, dans la deuxieme et la troisieme partie du manuscrit. 


La deuxieme partie se concentre plus particulierement sur la perspective de I’uti- 
lisateur et tente de satisfaire le premier objectif que nous nous sommes fixe : evaluer 
Vapport de la modalite auditive, d’un point de vue subjectif, pour la navigation et plus 
generalement pour Vacquisition de connaissanees spatiales. En particulier, nous evaluons 
ici I’apport des indices de la localisation auditive pour une navigation en vue subjec¬ 
tive, dans un environnement virtuel construit et arbitrairement complexe. En d’autres 
termes, nous traitons du cas particulier on I’experience visuelle est reduite a une succes¬ 
sion d’observations locales de I’espace. Ainsi, en reponse a un probleme d’usage concret, 
nous presentons deux approches differentes pour communiquer, a I’aide d’un son, I’infor- 
mation relative a la position spatiale d’un site distant. Nous considererons, d’une part, 
des balises deeontextualisees, points de reference radiale et azimutale et, d’autre part, des 
balises contextualisees, indiquant explicitement le chemin a suivre. Nous expliquerons 
pourquoi il est pertinent de s’appuyer sur un tel contraste pour creer deux conditions dif¬ 
ferentes de cognition spatiale. De la meme fagon, nous expliquerons pourquoi il est per¬ 
tinent de s’appuyer sur le contraste entre la synthese binaurale et la stereophonie mixte 
pour creer deux conditions differentes de perception spatiale. Nous avons alors compare 
les performances de differents groupes testant chacun un type de balise different {ba¬ 
lises contextualisees -h rendu binaural, balises deeontextualisees -h rendu stereophonique, 
etc.), croisant ainsi les facteurs experimentaux definis. Nous remarquons tout d’abord 
que la tache effectuee par les participants tient plus d’une tache locale d’orientation, 
necessitant une localisation efficace, que d’une tache globale de navigation, necessitant 
I’elaboration de strategies qui guident les deplacements. En outre, nous constatons que 
I’avantage des balises contextualisees est grandement remis en question a long terme. An 
contraire, e’est a plus long terme que la synthese binaurale semble avoir un effet positif 
sur Vutilisabilite des balises sonores. Nous concluons pourtant qu’il ne faut pas sures- 
timer la contribution des indices de la localisation auditive a la connaissance spatiale, 
surtout lors d’une complementarite aussi « forte » entre les modalites auditive et visuelle. 


La troisieme partie se concentre, quant a elle, sur la perspective du concepteur 
de logiciels. En effet, suite a la revue de la litterature, il nous a semble qu’un grand 
nombre de questions se posaient encore, quant a la mise en oeuvre de la spatialisation 
sonore pour la navigation dans les « grandes scenes ». L’etude presentee ici tente done 
de satisfaire le second objectif que nous nous sommes fixe : eoncevoir une interface de 
navigation dans un environnement de grande taille et proposer une solution a la sur¬ 
charge inevitable des algorithmes de rendu sonore, qui s’exprimera par une reduction 
du niveau de detail des ambiances sonores. Or il semblerait que les sons d’ambiance se 
satisfont tout a fait d’une approche « centree sur le champ sonore », plus econome que 
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I’approche classique « centree sur I’objet ». Cependant pour pouvoir mettre en oeuvre 
des flux audio multicanal (SurroundingSound) dans le contexte d’une application in¬ 
teractive, il nous faut deja proposer une mettiode pour les rendre « positionnables », 
au meme titre que les flux audio monophoniques {DirectiveSound). Pour cela nous pro- 
posons une methode simple et efficace, dans le cas d’une panoramisation par paires, 
utilisant des haut-parleurs virtuels positionnes en cercle dans I’environnement et defl- 
nissant le paysage sonore d’une region donnee de I’espace. Nous presentons alors une 
methode pour reduire le niveau de detail d’une scene sonore deflnie exclusivement a 
I’aide de DirectiveSound. Cela consiste tout simplement a partionner I’espace selon une 
certaine grille d’echantillonnage (ou selon I’organisation spatiale de la scene) et a en- 
registrer autant de SurroundingSound qu’il a ete deflni de partitions non vides. Pour 
une region donnee, le flux audio multicanal ainsi cree se substituera a I’ensemble des 
flux audio monophoniques qu’elle contenait. Cette substitution etant une veritable re¬ 
duction du niveau de detail de la scene sonore originate, elle introduit une certaine 
distorsion des effets de spatialisation, que nous avons tente de caracteriser, dans le cas 
particulier d’une diffusion sur un systeme quadriphonique. Pour cela, nous avons rea¬ 
lise un test MUSHRA modifle, offrant a la comparaison les memes scenes dans quatre 
versions differentes : DirectiveSound, SurroundingSound, « downmix » stereophonique 
et monophonique « upmixe » sur quatre canaux. Les participants ont realise ces compa- 
raisons dans differentes conditions d’ecoute, notamment, differents nombres de sources 
sonores (une, trois ou six) et differentes rotations ou translations du point d’ecoute. 
L’analyse des resultats montre que les scenes SurroundingSound sont jugees globale- 
ment moins fldeles aux scenes DirectiveSound originates que les scenes Stereophoniques. 
Nous relativisons cependant ce resultat puisque I’augmentation du nombre de sources 
sonores joue en faveur des SurroundingSound, bien que I’usage qui en est fait durant 
cette experience leur soit tres defavorable. Ce resultat est d’ailleurs encourageant. En 
effet, les SurroundingSound sont plutot destines a la reproduction des sons d’ambiance, 
senses etre composes d’un nombre important de sources sonores. C’est justement I’une 
des raisons pour laquelle nous avons preconise leur emploi pour la navigation dans les 
environnements de grande ampleur; ils permettent de creer des paysages sonores tres 
riches « a moindre frais ». 




Premiere partie 

Etat de Part 
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Chapitre 1 

Introduction 


Comme nous I’avons enonce dans I’introduction generale, cette premiere partie pre¬ 
sente, dans un premier temps, I’etat des connaissances qu’il nous a ete necessaire d’ac- 
querir pour conclure, d’une part, sur I’habilete spatiale du systeme auditif et, d’autre 
part, sur la qualite et Vutilisabilite d’une interface mettant en oeuvre les technologies 
de spatialisation sonore. Nous reunissons ensuite les travaux ayant un rapport plus in¬ 
time avec la navigation, meme si ceux-ci ne traitent pas particulierement de la modalite 
auditive. En effet, etant donne le pen de travaux ayant eu pour objet I’etude d’une in¬ 
terface de navigation sonore 3D, il nous a parfois ete necessaire de nous tourner vers des 
domaines relativement en marge de la psychologie, de I’acoustique on de I’informatique, 
tels que I’architecture {e.g. la planification urbaine) on encore I’esthetique {e.g. musique 
et cinema). 


Le chapitre 2 presente tout d’abord les indices de la localisation auditive pour 
une « perception passive » {i.e. sans mouvement de I’auditeur). Nous presentons en¬ 
suite certains facteurs pouvant influencer notre perception de I’espace, notamment, les 
effets d’une concurrence intra- et inter-modale. Insistant sur I’importance des processus 
cognitifs pour la localisation et I’inconsistance potentielle entre V espace reel et Vespace 
perceptif, nous concluons temporairement du role de facilitation que jouent les differences 
spatiales dans la perception auditive. Le cas d’une « perception active » de I’espace est 
alors I’occasion de discuter des capacites de I’audition pour I’acquisition de connaissance 
spatiale, sachant qu’elle est assez pen competitive par rapport a la vision. 


Le chapitre 3 presente les criteres objectifs de la qualite d’une reproduction sur 
haut-parleurs, decrivant les degradations relatives introduites par les techniques de pa- 
noramisation par paires et Ambisonic. Pour la reproduction an casque, nous discutons 
de I’apport veritable de la synthese binaurale par rapport a la stereophonie mixte, pour 
la realisation d’une tache dans une interface {e.g. la navigation dans un environnement 
virtuel). Uutilisabilite d’un dispositif audio 3D ne dependant pas que des performances 
de localisation offerte, nous decrivons done ensuite le processus complexe qui mene 
an jugement qualitatif (qualite subjective). Pointant sur I’insuffisance des methodes 
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psychoacoustiques classiques, nous insistons sur le fait qu’il est necessaire de repla¬ 
cer les dispositifs de spatialisation sonore dans le contexte de leur usage pour mieux 
saisir les facteurs psychologiques mis en jeu et offrir une evaluation plus pertinente. 
Nous definissons alors les criteres utilises pour revaluation d’une interface lors d’un 
test d’’ utilisabilite. Enfin, nous sensibilisons le lecteur au fait que, dans le cadre d’une 
IHM, la qualite d’un dispositif sonore se developpe selon un axe nouveau : celui de la 
signification. Nous introduisons alors le concept de « meaningfull play », qui parait etre 
le plus adapte pour rendre compte des descriptions statiques (interpretation pure) et 
dynamiques (construction de la connaissance) des systemes semiotiques. La premiere 
approche, a laquelle correspond une semiotique constituee sur le modele de la linguis- 
tique, est I’objet du chapitre suivant. 

Le chapitre 4 rappelle tout d’abord les fonctions unanimement reconnues de la 
modalite auditive, puis introduit les trois grandes approches de la representation so¬ 
nore d’information : le mapping de parametres, les earcons et les auditory icons. On 
remarque que le modele linguistique permet bien de rendre compte des capacites re- 
presentationnelles de ces trois types de messages sonores, le premier etant suppose etre 
une approche lexicale, le second une approche syntaxique et le troisieme une approche 
semantique. Cependant, apres avoir presente differents cas d’usage de la spatialisation 
sonore dans une interface, que nous jugeons representatifs d’un point de vue acade- 
mique, nous constatons qu’un continuum « analogique/symbolique » est plus pertinent 
pour decrire les capacites expressives des indices de la localisation auditive. Nous re- 
marquons alors qu’elle n’est pas appropriee pour la representation symbolique, etant 
donne le faible pouvoir de resolution spatiale de la modalite auditive, son manque de 
persistance et les problemes de memorisation qui s’ensuivent. Nous en concluons que 
les dispositifs audio 3D ne sont pas tres utilisables lorsqu’il s’agit de communiquer une 
information autre que la position d’une source sonore. Nous jugeons alors qu’il est plus 
pertinent d’approfondir I’usage de la spatialisation sonore dans le cadre d’interactions 
integrees, soit une signification qui n’est pas necessairement donnee, mais se construit 
avec I’experience, dans le temps et I’espace. C’est ce qui nous pousse a restreindre le 
cadre de nos travaux de recherche a la conception d’interfaces de navigation dans les 
environnements sonores 3D. La revue de la litterature traitant plus particulierement de 
cette problematique est I’objet du chapitre precedent. 

Le chapitre 5 acheve, dans une premiere section, I’etat de I’art traitant des facteurs 
humains dans la communication humain-machine. Nous nous concentrons, seulement 
dans une seconde et derniere section, sur la perspective du concepteur de logiciels. 

La section 5.1 presente, tout d’abord, les rares travaux ayant en pour objet I’etude 
des capacites d’un individu a s’orienter et a se deplacer dans I’espace, grace a I’assistance 
d’un environnement virtuel audio. Nous y presentons alors le concept damage mentale 
qu’un individu se construit de son environnement (grace a I’experience visuelle), lui 
permettant d’elaborer des strategies qui guident ses deplacements {wayfinding). Comme 
pour le paysage visuel, nous posons alors la question de la lisibilite du paysage sonore. 
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insistant sur le contraste qui doit exister entre differents plans sonores (perspective). 
Nous faisons I’hypothese que certains sons de premier plan (les empreintes on sound- 
mark) peuvent jouer un role equivalent on complementaire aux points de repere visuels 
(on landmark). Enfin, nous abordons le cas de la navigation dans un environnement 
virtuel non-immersif dont la metaphore de la camera est I’element structurant. Nous 
presentons ainsi les differentes perspectives que peuvent offrir respectivement le point 
de vue et le point d’ecoute. S’appuyant sur le concept d’interface zoomable et d’interface 
focus-hcontexte, nous actievons cette premiere partie en faisant I’liypottiese d’une com- 
plementarite du point de vue et du point d’ecoute. A grande ectielle, nous suggerons que 
la modalite auditive represente le contexte puisque la modalite visuelle est contrainte 
a la representation du focus. Reciproquement, a petite ectielle, nous suggerons que la 
modalite auditive represente le focus, puisque la modalite visuelle est contrainte a la 
representation du contexte. 

La section 5.2 presente tout d’abord les principaux noeuds introduits par la se- 
conde edition de I’AudioBIFS de la norme MPEG-4 (dite « Advanced AudioBIFS ») 
pour Vauralisation des environnements virtuels. Nous presentons ensuite les « effets en¬ 
vironnement aux » des versions 4 et superieures de I’API FAX, qui font defaut, pour 
certains, a la norme MPEG-4 : obstruction, occlusion et exclusion. Nous soulignons 
alors qu’un outil de creation de scene sonore, qui n’est pas dedie specifiquement a la 
realite virtuelle, se doit de prendre en compte deux approcties. Tune, « centree sur I’ob- 
jet », et I’autre, « centree sur le champ sonore ». Nous remarquons que la version 3 de 
I’AudioBIFS, implemente justement ces deux approches grace a I’ajout d’un noeud Sur¬ 
rounding Sound, dont est presentee I’interface de programmation et les transformations 
que Ton pent leur appliquer pour qu’ils soient utilisables dans une application interac¬ 
tive. Nous presentons ensuite les techniques de gestion du niveau de detail sonore {LOD, 
pour Level-of-Detail) indispensable an rendu d’une scene contenant un grand nombre 
de sources sonores. Nous remarquons alors que I’usage des SurroundingSound et de I’en- 
codage HOA (pour High Order Ambisonic) permet de faire une economie du nombre 
de flux audio Ins simultanement et offre une alternative interessante aux techniques 
de LOD presentees. Nous expliquons cependant que I’utilisation de la panoramisation 
par paires est plus appropriee pour I’implementation des SurroundingSound, dans I’etat 
actuel des recherches. Nous insistons ensuite sur le fait, qu’en plus des ressources du 
systeme, les ressources perceptives et cognitives de rutilisateur doivent aussi etre op- 
timisees. Prenant exemple de la representation visuelle de donnees georeferencees dans 
une interface zoomable, nous montrons que cette optimisation pent etre realisee grace 
a un certain nombre de transformations s’appliquant aux donnees et an rendu sonore. 
Nous achevons enfin cette etude bibliographique en presentant un cadre de reference 
pour la conception des systemes de representation sonore d’information, sur lequel il 
serait bon de s’appuyer pour definir I’architecture d’une interface de navigation dans 
un environnement sonore 3D. 

Nous conclurons enfin en expliquant notre demarche experiment ale et detaillant 
quelles seront nos contributions aux differents problemes poses. 
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Chapitre 2 

Localisation auditive et cognition 
spatiale 


Ce chapitre presente tout d’abord les indices de la localisation auditive pour une 
« perception passive » {i.e. sans mouvement de I’auditeur). Nous presentons ensuite 
certains facteurs pouvant influencer notre perception de I’espace, notamment, les ef- 
fets d’une concurrence intra- et inter-modale. Insistant sur Timportance des processus 
cognitifs pour la localisation et I’inconsistance potentielle entre V espace reel et Vespace 
perceptif, nous concluons temporairement du role de facilitation que jouent les differences 
spatiales dans la perception auditive. Le cas d’une « perception active » de I’espace est 
alors I’occasion de discuter des capacites de I’audition pour I’acquisition de connaissance 
spatiale, sachant qu’elle est assez pen competitive par rapport a la vision. 

2.1 Les indices de la localisation pour la perception passive 

Les indices de la localisation spatiale presentes ici sont ceux de la perception dite 
« passive » , c’est-a-dire sans mouvement de I’auditeur. Bien que cela ne soit pas repre- 
sentatif d’une experience auditive naturelle, une telle contrainte est indispensable pour 
I’etude rigoureuse des capacites de Thumain a percevoir les sons dans I’espace. Nous 
aurons I’occasion d’aborder ulterieurement le cas d’une perception dite « active » , pour 
laquelle I’auditeur est libre d’orienter la tete on de mettre son corps en mouvement. On 
comprendra alors, a quel point il est justifie de bien distinguer ces deux conditions de 
perception. 

2.1.1 Les indices binauraux 

Les mecanismes de la localisation dans le plan horizontal sont sans doute les mieux 
connus de la localisation en generate, puisque Lord Rayleigh avanga des 1907 que la 
localisation dans ce plan reposait essentiellement sur deux indices : les differences in- 
teraurales de temps (phase) et d’intensite (niveau de pression acoustique) [Ray07]. La 
sensibilite du systeme auditif a ces deux indices, appeles respectivement ITD (Interaural 
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Time Differences) et IID (Interaural Intensity Differences), depend de la frequence du 
signal qui parvient aux oreilles. En effet, d’apres la « duplex theory » presentee par 
Rayleigh, pour determiner I’azimut d’une source sonore, le systeme auditif utilise I’lTD 
pour les frequences inferieures a 1.5 kHz (ce qui correspond a une longueur inferieure a 
la taille de la tete) et I’lID pour les frequences superieures a 2 kHz environ. Or, il existe 
une infinite de directions qui produit une ITD constante. L’ensemble de ces directions 
forme ce que Ton appelle le « cone de confusion » [Mil72]. II tient son nom du fait qu’il 
est difficile pour un auditeur de discerner deux points diametralement opposes sur ce 
cone (Figure 2.1); d’ou de nombreuses confusions avant/arriere. Elies sont d’ailleurs 
plus nombreuses en dessous de 2 kHz, puisque I’asymetrie de la tete a, dans ce cas, 
moins d’influence sur I’lTD [SN36]. Cela met bien en valeur I’importance des indices 
spectraux, qui permettent de lever en partie I’ambiguite des indices binauraux. Nous 
verrons, dans la partie suivante, quels sont plus exactement ces indices et quel est leur 
role dans la localisation de sources sonores. 



Fig. 2.1 - Le cone de confusion [Mil72]. Deux sources sonores, placees respectivement en 
a et b, produisent les memes differences interaurales an niveau des oreilles de I’auditeur ; 
de meme pour deux sources placees respectivement en x et v. 


Enfin, la precision du systeme auditif pour la localisation dans le plan horizontal, 
caracterisee par le MAA (pour Minimum Audible Angle) a ete evaluee par Mills [Mil72]. 
Le MAA est defini comme etant la plus petite difference (on jnd, pour just notieeable 
differenee) en azimut perceptible par I’auditeur. Dans des conditions ideales, il a ete 
montre que la plupart des auditeurs sont capables de detecter des changements d’angle 
de 1 ° lorsque la source est frontale. Cette precision diminue an fur et a mesure que la 
source se deplace sur les cotes, on, dans le cas d’un son pur, lorsque sa frequence est 
comprise entre 1.5 kHz et 2 kHz (Figure 2.2). 
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Fig. 2.2 - MAA en fonction de la frequence pour des impulsions successives, en fonction 
de la frequence et de la direction de la source (0 ° , 30 ° , 60 ° et 75 °) [Mil72] 


2.1.2 Les indices spectraux 

Les indices spectraux que nous avons introduits brievement precedemment, corres¬ 
pondent aux modifications de I’amplitude et de la phase du spectre de la source sonore, 
dues aux multiples reflexions, diffractions et autres obstructions, provoquees par les 
epaules, la tete et surtout I’oreille externe. Ces phenomenes sont decrits par un couple 
de Functions de Transfert Relative a la Tete (ou HRTF pour Head Related Transfert 
Fonction), dont Gierlich [Gie92] a decrit les composantes directionnelles et non di- 
rectionnelles. Le schema de la figure 2.3 indique les intervalles de frequence affectes 
respectivement par les differentes parties du corps. 


head diffrac¬ 
tion and 
reflection 


i-rN 


NONDIRECTIONAL 


DIRECTIONAL 


Fig. 2.3 - Description des composantes directionnelles et non directionnelles des HRTF 
[Gie92] 
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Avant de devenir une technologie de spatialisation sonore parmi tant d’autres, les 
HRTF ont d’abord ete utilisees pour simuler des sources virtuelles afin d’etudier la 
localisation dans le plan vertical median (PVM). Les recherches sur la perception de 
I’elevation se font principalement dans ce plan car, dans ce cas, on pent pratiquement 
faire abstraction des informations binaurales utilisees pour la determination de I’azimut, 
grace a la relative symetrie du corps tiumain par rapport a ce plan. Historiquement, 
la dependance frequentielle de la perception d’elevation a ete mise en evidence par 
I’experience des « bandes directives » de Blauert [Bla83] (Figure 2.4). 



Fig. 2.4 - Experience des « Bandes directives » [Bla83] 


En faisant ecouter des signaux a bande etroite emis par une source fixe (un tiaut- 
parleur), on montre que la localisation de I’evenement sonore dans le plan median n’est 
absolument pas reliee a la position de la source reelle, mais uniquement determinee par 
la frequence du son. Par exemple, un son a 1 kHz est systematiquement localise derriere 
I’auditeur, tandis qu’un son de 8 kHz est pergu au dessus de sa tete. 



Fig. 2.5 - Flou de localisation dans le plan horizontal (a gauche) et dans le plan vertical 
median (a droite), pour une impulsion de bruit blanc de 100 ms [Bla83] 


Enfin, contrairement aux differences de temps et d’intensite qui sont des processus 
innes (interaction binaurale au sein du complexe olivaire superieur), la localisation dans 
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le plan vertical median est un mecanisme appris. De plus, meme si I’acuite de localisation 
depend grandement de la direction d’incidence du son et de sa composition spectrale, on 
pent retenir que le systeme auditif est bien plus precis dans le plan horizontal que dans 
le plan vertical [Bla83]. En effet, comme on pent le constater sur la figure 2.5, le flou 
de localisation est beaucoup plus important dans le plan vertical median (dispersion de 
22 ° a 66 ° d’elevation) que dans le plan horizontal (dispersion de 10 ° a 80,7 ° d’azimut). 

2.1.3 Determination de la distance 

II est difficile pour le systeme auditif d’identifier la distance d’une source sonore 
dans I’absolu. Une evaluation relative (« plus proche » on « plus loin » ) semble mieux 
maitrisee. 

Influence du niveau La distance auditive est apprise d’observations audiovisuelles 
durant notre vie, correlant le deplacement physique de sources sonores avec les reduc¬ 
tions on augmentations d’intensite (chaque doublement de distance implique une perte 
supplementaire de 6 dB [Col63]). C’est sans doute le premier indice que nous utilisons 
dans nos « taches de survie » quotidiennes. II nous permet d’etre alerte, par exemple, 
lorsqu’une voiture arrive derriere nous. 

Influence de la composition spectrale du signal sonore Les hautes frequences 
etant plus fortement attenuees par la propagation dans I’air, un son riche en hautes 
frequences renforce la sensation de presence de la source sonore. Par ailleurs, pour des 
sources sonores tres proches, des distorsions spectrales, liees a la courbure du front 
d’onde, interviennent et peuvent influencer le jugement de la distance a cause, notam- 
ment, du renforcement des basses frequences [Bek60]. 

Influence de la reverberation Butler et al. [BLN80] ont constate qu’une augmen¬ 
tation de la reverberation provoquait un eloignement apparent des sources sonores, sans 
que cela permette une identification precise de la distance. La reverberation influence 
I’estimation de I’eloignement en termes qualitatifs (proche on loin), et non en termes 
quantitatifs. En fait, plutot qu’une distance, elle permet d’identifier un intervalle pos¬ 
sible de distance pour une source sonore [Beg94]. 

Influence de I’attente et de la familiarite avec la source Coleman [Col62] a 
note que la qualite de I’estimation de la distance des sources sonores en champ libre 
s’ameliorait nettement lorsque les tests se multipliaient, et que les sujets gagnaient en 
experience. Dans le cas de la parole, I’indicateur de distance est particulierement tri- 
butaire de la familiarite. En outre, Gardner [Gar69a] a mene plusieurs etudes sur la 
parole pour illustrer le role de I’attente et de la familiarite. II a montre que le jugement 
de la distance dependait du type de parole employe. Precisement, il met en valeur le 
fait que la connaissance prealable du stimulus par I’auditeur influera notablement sur 
la precision qu’il aura a juger la distance de la source. 
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Ainsi, meme si quelques etudes tendent a montrer que la presence d’indices bi- 
nauraux (ITD et IID) conduit a une certaine amelioration, il semblerait que les indices 
qui interviennent dans ce processus d’estimation de la distance soient essentiellement 
monauraux. 


2.2 Delocalisation et fusion des percepts 

Les indices de la localisation auditive ne suffisent pas necessairement a garantir 
qu’une source sonore a une position donnee dans I’espace soit pergue comme telle. Nous 
I’avons deja laisse entendre pour revaluation de la distance, mais c’est aussi vrai pour 
la localisation dans plan horizontal et a plus forte raison dans le plan vertical median. 
De nombreux facteurs doivent etre pris en compte avant de connaitre notre habilete 
a analyser notre environnement, en particulier, les effets d’une concurrence intra- et 
inter-modale. 

2.2.1 Influence de la presence d’autres sources 

« Lorsque plusieurs sources acoustiques sont actives simultanement, les images de 
celles-ci ne sont pas necessairement localisees au meme endroit et avec les memes qua- 
lites que si elles etaient actives les unes sans les autres » [Cha96]. Divers phenomenes 
peuvent se produire, conduisant a des percepts differents. Cependant, nous ne rentre- 
rons pas dans les details de chacun d’eux. Seul, le phenomene de fusion [i.e. I’auditeur 
pergoit une seule image ayant diverses qualites) sera traite, ici. Nous invitons, le lecteur 
a se reporter aux travaux de Gardner ([Gar69b] cite dans [Gha96]) pour une etude plus 
detaillee. 

L’effet d’anteriorite ([Has72] cite dans [Gha96]) est I’un des exemples les plus connus 
de fusion de signaux. Ge phenomene aussi nomme « loi du premier front d’onde » , 
explique pourquoi en presence de reverberation, les sources virtuelles creees par les 
premieres reflexions ne sont pas pergues comme des sources independantes. En effet, 
lorsqu’un meme signal est emis par deux sources, avec un leger decalage temporel entre 
elles (superieur a 1 ms), il s’opere une fusion et le systeme localise une seule source dans 
la direction de la source alimentee la premiere. 

Ghernyak et Dubrovsky ([GD68] cite dans [Gha96]) ont mis en evidence un autre 
exemple de fusion, en lien plus direct avec la localisation dans le plan horizontal. En 
effet, ils ont remarque qu’il etait possible, dans certaines conditions, d’obtenir une fusion 
de deux images auditives en une seule. Pour cela, ils ont diffuse, respectivement sur 
chaque oreille d’un auditeur (au casque), deux bruits presentant une coherence variable 
k (exprimee par le coefficient d’intercorrelation). Gomme I’illustre la figure 2.6, pour une 
valeur de 1, le sujet pergoit une seule image auditive, localisee autour du centre de la 
tete. Lorsque k diminue jusqu’a 0,4, I’image reste unique mais s’etend progressivement 
d’une oreille a I’autre. Enfin, en dessous de cette valeur, I’image se scinde en deux et 
r auditeur pergoit deux sources distinctes localisees pres des deux oreilles. 
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Fig. 2.6 - position des images auditives lorsque I’on presente an casque a des auditeurs, 
un bruit ayant divers degres de coherence interaurale [CD68] 


Le principe de la diffusion stereophonique, que nous aborderons un pen plus en detail 
ulterieurement, repose avant tout sur le phenomene de fusion. Comme nous I’avons 
enonce precedemment, la localisation dans le plan horizontal depend essentiellement 
des indices binauraux (ITD et IID). Cependant, pour que le cerveau puisse interpreter 
correctement ces indices, les signaux parvenant aux deux oreilles de I’auditeur doivent 
presenter des caracteristiques spectrales et temporelles fortement similaires. Une faible 
coherence (on correlation) interaurale impliquerait necessairement un etalement de la 
source image, done une localisation moins precise. 

2.2.2 Influence de la vision 

II semble exister un certain consensus sur le fait que la vision ait un sens eminem- 
ment « spatial » . On est done en droit de se demander dans quelle mesure les systemes 
de localisation auditive et visuelle sont en concurrence pour I’acces a la connaissance 
de I’espace et quelles en sont les consequences. II faut noter, avant toute chose, que 
le systeme de perception humain a pour caracteristique d’etre hautement non-lineaire 
([WP81] cite dans [Cha97]). La perception d’un evenement audiovisuel n’est pas une 
simple combinaison lineaire des percepts auditifs et visuels. De nombreuses interactions 
se produisent pouvant donner lieu a la delocalisation d’un des percepts voire meme, dans 
certains cas, a une veritable fusion perceptuelle {i.e. creation d’un percept audiovisuel 
unique) ([Rad94] cite dans [Cha97]). II est done important de passer en revue quelques 
uns des resultats fondamentaux, concernant I’influence de la vue sur la localisation au¬ 
ditive. Rappelons tout d’abord, que les performances des deux modalites en termes 
de localisation sont assez inegales. Le pouvoir de resolution spatiale du systeme visuel 
est extremement eleve puisqu’il est d’environ 30 s d’arc dans les meilleures conditions 
([HH73] cite dans [Cha97]), alors qu’il est d’environ 1 ° pour le systeme auditif [Mil72]. 
Cela porte deja a penser que la vision aurait tendance a supplanter I’audition pour la 
situation dans I’espace. 


An niveau le plus basique, il a ete montre que la vision pouvait biaiser I’audition 
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bien plus que I’audition ne pouvait biaiser la vision. En presentant simultanement des 
flashes de lumiere et des pulsations sonores, pour differents ecarts angulaires, Bertelson 
et Radeau ([BR81] cite dans [Cha97]) out releve une delocalisation de la source sonore 
vers la source lumineuse (par exemple, le biais est d’environ 8 ° pour une separation de 
25 °), alors qu’aucun biais signiflcatif de la vision par I’audition n’a ete constate. 

Dans un contexte quasi-realiste, le biais pent etre provoque de fagon plus subtile. Par 
exemple, Weerts et Thurlow ([WT71] cite dans [Cha97]) out etudie I’influence d’un ele¬ 
ment visuel susceptible d’emettre un son. Durant I’experience, des « clicks » etaient 
diffuses a I’aide d’un haut-parleur (HP) cache en face de I’auditeur, tandis qu’un autre, 
place a 20 ° sur le cote, etait visible mais inactif. Les auteurs out note que, dans certaines 
conditions, la delocalisation de la source sonore pouvait atteindre 9 ° dans la direction 
du HP visible. Sans entrer dans les details du protocole experimental, les sujets, pour 
qui ce biais a ete observe, savaient que plusieurs HPs caches pouvaient emettre des sons 
simultanement et que le resultat serait un son provenant probablement du HP visible. 
L’attente de I’observateur pent done avoir une grande influence sur le jugement de la 
position spatiale. C’est pour cette raison que, durant des experiences de localisation 
auditive, il est necessaire de prendre un soin particulier a cacher tout systeme de repro¬ 
duction. 

De maniere generate, il semblerait qu’il existe une forte tolerance au disaccord spa¬ 
tial entre stimuli visuels et auditifs en situation naturelle. A I’extreme, une reelle fusion 
perceptuelle entre image et son pent se produire. Chacun de nous a fait un jour I’ex- 
perience de ce que I’on appelle « effet du ventriloque » , en regardant la television ou 
en assistant a la projection d’un film au cinema. La voix des acteurs semble vraiment 
provenir de leur bouche et non du systeme de diffusion. Thurlow et Jack ([TJ73] cite 
dans [Cha97]) ont teste I’influence de differentes separations angulaires sur cet effet, 
avec deux types de stimuli (video ou marionnettes). En environnement anechoi'que, I’ef- 
fet est relativement fort jusqu’a 30 ° de separation dans le plan horizontal, mais il chute 
considerablement lorsque la separation atteint 40 °. Ainsi, a la difference des interac¬ 
tions basiques provoquees par des stimuli de laboratoires (flashes lumineux et bruits), 
il est possible de provoquer, en situation quasi-realiste, une fusion des percepts auditifs 
et visuels. En outre, la delocalisation est beaucoup plus importante (30 ° centre 8 ° ou 
9 ° precedemment). Il semble done que la coherence entre les informations visuelles et 
sonores joue un role preponderant. L’influence des facteurs conceptuels a d’ailleurs ete 
I’objet de quelques etudes, tant du point de vue du realisme ([TJ73] cite dans [Cha97]) 
que de la mise en condition de I’observateur ([WWM81] cite dans [Cha97]). En conclu¬ 
sion, comme le resume Chateau [Cha97], « des stimuli visuels et auditifs coherents ainsi 
qu’une suggestion faite aux observateurs qu’il y a reellement coherence favorisera la 
fusion perceptuelle et par consequent augmentera la tolerance vis-a-vis de situations 
conflictuelles dans I’espace » . 

Apres un tel expose, il difficile de remettre en cause la superiorite de la vision pour 
la localisation. Cependant, il ne faut pas oublier que le champ de vision est reduit au 
secteur frontal et qu’en dehors de ce champ, I’audition beneficie, a son tour, d’une forme 
d’exclusivite. De plus, le pouvoir de resolution temporelle du systeme auditif se situe 
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autour de 2 ms ([Hir52] cite dans [Cha97]), alors que celui du systeme visuel se situe 
mediocrement aux alentours de 20 ms [HH73]. « Ces qualites specifiques de la locali¬ 
sation auditive expliquent sans doute la performance exceptionnelle de notre systeme 
perceptif, qui propose quasi instantanement des hypotheses precises de localisation (a 
quelques degres pres et en quelques millisecondes^) quand surgit un evenement sonore » 
[JW94]. 


2.3 Le role de I’espace dans la perception auditive 

Comme nous avons pu nous en rendre compte, la description des mecanismes acous- 
tiques (temps de propagation, reflexions, diffractions, obstructions, etc.) et neuronaux 
(interaction binaurale dans le tronc cerebral) ne suffisait pas pour apprehender le pheno- 
mene de fagon satisfaisante. Contrairement a la vision qui beneficie d’une representation 
topographique des les premiers instants de la perception, il semblerait que les processus 
cognitifs aient une part bien plus importante dans le cas de I’audition. C’est done sous 
ce nouveau regard que nous allons etudier ses capacites spatiales et conclure sur le role 
de I’espace dans la perception auditive. 

2.3.1 L’analyse de scene auditive 

Avant de pouvoir determiner quelle pent etre la contribution de la dimension spatiale 
a la perception auditive, il faut confronter les indices de la localisation avec les autres 
indices que sont la hauteur, la duree on encore le timbre. C’est justement le propos de 
Bregman [Bre94a], qui tente de mettre a jour les mecanismes sous-tendant 1’Analyse de 
Scene Auditive (ASA). Il fait notamment reference an principe « de complementarite 
psychophysique » de Shepard ([SheSl] cite dans [Bre94b]), affirmant que le systeme 
perceptif a appris a tirer parti des regularites du monde dans lequel I’homme evolue. De 
fait, puisque des sons crees par le meme evenement sonore proviennent habituellement 
d’une meme position on d’une position qui change lentement, il devrait exister un prin¬ 
cipe d’analyse de scene auditive groupant les sons issus de la meme position spatiale. 
D’aucun pourrait penser que ce principe est fondamental pour la decomposition percep¬ 
tive de mixture sonore complexe. Nous faisons I’experience quasi quotidienne, de notre 
capacite a orienter notre attention de fagon selective vers une source sonore en presence 
d’autres sources et de bruit de fond. Cependant, ce que nous apprend Bregman, c’est 
qu’il faut bien dissocier I’espace « physique » et I’espace « perceptif » . Meme si tout 
son a une position dans la realite, cela ne garantit pas que cette position soit representee 
dans le « domaine perceptif » . Les exemples de fusion presentes precedemment en sont 
un premier exemple et il en existe d’autres. 

Notamment, I’iHusion des intervalles (« scale illusion » ) de Deutsh [Deu75], a mis 

^Effectivement, Hofman et Van Opstal [HV098], observent des performances de localisation iden- 
tiques dans le plan horizontal pour un bruit gaussien de 3 ms et de 500 ms. On remarquera, en outre, 
que le temps necessaire a la localisation est plus important dans le plan vertical median, que dans le 
plan horizontal. 
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en valeur le conflit qui pouvait avoir lieu entre les groupements par proximite spatiale 
et frequentielle. Les stimuli utilises sont presentes a gauche de la figure 2.7. Durant I’ex- 
perience, on diffuse simultanement, a I’aide d’un casque, deux gammes de do majeur, 
I’une ascendante, I’autre descendante. Chaque nouvelle note de ces deux gammes, d’une 
duree de 250 ms, est presentee sur une oreille differente, de telle sorte que I’auditeur 
entende une note aigue dans une oreille et une note grave dans I’autre. La plupart des 
auditeurs entendent a droite une melodie composee des notes les plus aigues et a gauche 
une melodie composee des notes les plus graves. 


Stimuli 

G DGDGOGDGDGOGOGD 


Melodies pergues 


Fig. 2.7 - Illusion des intervalles (« scale illusion » ) de Deutsh 


Sans aller plus loin dans I’explication du phenomene, cette experience tend a montrer 
que les groupements perceptifs par proximite frequentielle peuvent se faire an detriment 
des groupements par proximite spatiale. Ce resultat n’est pas si surprenant, si I’on sait 
que le systeme peripherique delivre une representation frequentielle de la mixture so- 
nore pergue. Or, comme I’ont propose Woods et Column ([WC92] cite dans [DarOl]), les 
indices de la localisation auditive (ITD et IID) de chacun des canaux frequentiels sont 
calcules independamment et en parallele avec le processus qui assigne ces canaux a des 
sources sonores distinctes. Cette hypothese est aussi soutenue par Kubovy et Howard 
([KH76] cite dans [Bre94a]), qui ont prouve I’existence d’un processus de localisation 
distinct pour chaque bande de frequence. 

Bregman [Bre94a] cite bien d’autres exemples illustrant le fait que les differents 
indices extraits d’une mixture sonore (position, hauteur, duree, etc.) participent a la 
determination de la position des sons qui seront finalement crees par I’organisation per¬ 
ceptive. II y voit une forme d’intelligence du systeme auditif, qui presente une certaine 
robustesse face aux erreurs provoquees potentiellement par un indice peu liable, dans 
certaines situations. En effet, des phenomenes physiques tels que la reverberation ou les 
exclusions peuvent deformer I’information relative a la position des sons. En revanche, 
ils ne modifient pas la frequence fondamentale, ni les relations harmoniques internes 
ou le nombre de frequences qui les composent. Plutot que de considerer les effets de la 
fusion comme une illusion, on pent y voir une strategie de conservation vertueuse, qui 
nous rend capable de recalibration apres une exposition atypique, comme en temoigne 
« I’effet du ventriloque » ou tout simplement I’effet d’anteriorite. It is as if the auditory 
system wanted to tell a nice, consistent story about the sound [Bre94a]. 
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2.3.2 Demasquage spatial et attention auditive 

Nous avons mentionne plusieurs fois I’etonnante capacite du systeme auditif a se 
focaliser sur une source sonore en presence d’autres sources. Cette capacite fait reference 
a «I’effet cocktail party » qui, depuis les travaux precurseurs de Cherry en 1953 [Che53], 
preoccupe encore de nombreux chercheurs, taut I’etendue du probleme est grande. C’est 
d’ailleurs I’un des rares themes de recherche en acoustique qui mette en valeur de fagon 
aussi prononcee le role de I’espace dans la perception auditive. L’etude de cet effet 
est, en outre, fort interessante, puisqu’elle permet d’aborder les caracteristiques de la 
localisation dans toute son ampleur, du plus bas niveau (celui du systeme peripherique, 
siege du traitement des indices primitifs) an plus haut niveau (celui du systeme central, 
siege de I’attribution des ressources attentionnelles). 

Masquage energetique De nombreuses etudes montrent que la separation spatiale 
permet de reduire le seuil d’audibilite d’une source cible en presence d’une autre source 
masquante [Eba03]. Bronkhorst et Plomb [BP88] out observe que les indices de locali¬ 
sation ne contribuent pas de fagon equitable an demasquage spatial. Pour un enregis- 
trement de parole en position frontale (signal cible), differents types de bruit masquant 
ont ete reproduits a differents azimuts (de 0° a 180°). Les bruits masquants, dont les 
contributions respectives de I’lID et de I’lTD furent extraites, ont ete enregistres en 
champ libre avec une tete artificielle et presentent la meme enveloppe spectrale que le 
signal de parole. Les resultats montrent que les differences interaurales d’intensite (IID) 
jouent nn role preponderant. Comme I’indique la figure 2.8, le seuil de reception (ou 
SRT, pour Speech Reception Thresholds) est globalement plus faible pour I’lID seul 
que pour I’lTD seul. 



Fig. 2.8 - Demasquage de la parole, pour trois types de bruit masquant : FF (champ 
libre), dL (IID seul), dT (ITD seul) [BP88] 


De plus, il a ete constate qu’une attenuation de 20 dB sur I’oreille ipsilaterale au bruit 
dL (IID seul) n’avait pas d’effet significatif sur I’intelligibilite. Le demasquage spatial 
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induit par I’ILD semble du essentiellement a I’oreille beneficiant du meilleur rapport 
signal a bruit (« meilleure oreille » ). Ce phenomene modere le role des interactions 
binaurales, mais ne les remet pas veritablement en cause. En effet, les conditions de 
I’experimentation sont assez eloignees d’une situation naturelle d’ecoute. La presence de 
reverberation notamment, tend a attenuer les differences interaurales d’intensite et rend 
plus improbable I’existence d’une « meilleure oreille » . Concernant le cas de multiples 
sources concurrentes, des etudes plus recentes ([DBOO], [HLJ04]) revelent que I’avantage 
du demasquage binaural est sa robustesse pour toutes les configurations spatiales. En 
effet, il n’est pas etonnant de constater que le demasquage monaural ne joue qu’un role 
mineur lorsque les sources concurrentes sont reparties dans les hemispheres gauche et 
droit. 

Masquage informationnel et attention auditive Lorsque le niveau de la source 
cible est an dessus du seuil de detection, un autre type de masquage peut intervenir. En 
effet, si les deux sources sonores presentent des caracteristiques spectrales et temporelles 
similaires, la segregation perceptive de la cible et du masque peut etre perturbee. II ne 
s’agit done plus de masquage energetique mais de masquage informationnel. Dans ce cas, 
il semblerait que nos capacites d’attention aux evenements issus de I’analyse de scene 
auditive jouent un role decisif. Or, I’attention comporte avant tout deux aspects impor- 
tants, designes par les concepts d’attention selective et d’attention partagee. « L’effet 
cocktail party » est I’exemple le plus connu d’attention selective. D’apres Jones et Yee 
[JY94] « il illustre une caracteristique generale de I’attention : souvent, nous ignorons 
sans effort des patterns sonores provenant de sources sonores multiples pour suivre le 
produit d’une seule source. Par centre il est plus difficile de partager I’attention entre 
plusieurs conversations » . Il semblerait d’ailleurs que la separation spatiale n’ait pas la 
meme influence sur les performances de ces deux taches. Best et al. [BGISC06] montrent, 
en effet, qu’elle facilite Leconte selective puisqu’elle permet I’exclusion d’une source an 
profit d’une autre, mais que, pour les memes raisons, un ecart angulaire trop grand 
degrade les capacites d’attention partagee. D’apres les auteurs, cela confirme I’existence 
d’un « faisceau attentionnel » (spatial spotlight), permettant a I’attention d’etre volon- 
tairement deplacee (attention endogene) afin de « rehausser » le traitement de certains 
evenements an detriment des autres [JY94]. Cependant, une telle metaphore, inspiree 
de la perception visuelle, est sujette a controverse, puisqu’elle suppose une discretisation 
de I’espace an sein duquel I’attention se localise. Certaines approches s’abstiennent done 
d’utiliser cette metaphore, se fiant simplement a des gradients spatiaux de I’attention 
[JY94]. Quoi qu’il en soit, cela ne remet pas en cause le fait que le cout associe a Leconte 
partagee (en termes d’erreurs commises lors du report du contenu de Lune on Lautre 
source) est moindre lorsque les sources ne sont pas trop eloignees. 

En conclusion, Laudition spatiale apporte un avantage certain, du moins, si Lon se 
« contente » de comparer la simulation d’une ecoute spatiale naturelle {i.e. a Laide de 
HRTF an casque, on a Laide de haut-parleurs en champ libre) a une ecoute monaurale 
on dichotique. En outre, mis a part le cas d’un masquage purement energetique (qui 
n’est que theorique), le benefice d’une separation spatiale pour Lintelligibilite semble 
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en partie de nature cognitive. Or, I’existence de schema a une tres grande influence sur 
la segregation perceptive [Bre94b]. C’est le cas, notamment pour la parole on pour les 
sons de notre quotidien. On retiendra done que les differences spatiales jouent plutot 
un role de facilitation puisqu’elles amplifient la segregation fondee sur d’autres facteurs. 
Cependant, depuis le debut de ce chapitre nous ne considerons que la perception passive, 
c’est a dire sans action. Or, comme le rappelle de Cheveigne [dC04], « la perception se 
jauge a I’aune de Taction qu’elle guide » . 

2.4 La perception active de I’espace 

D’apres le mathematicien Henri Poincare, « localiser un point dans Tespace, c’est 
simplement se representer le mouvement qu’il faut faire pour Tatteindre » ([Poi05] cite 
dans [Ber03]). Sans aller jusqu’a de tels extremes, il est certainement admis que Taction 
participe a la perception aussi bien que la perception participe a Taction. C’est ainsi 
que Berthoz [Ber97], pour mieux comprendre les mecanismes de la cognition spatiale, 
est amene a ajouter le sens du mouvement (on kinesthesie) aux cinq sens aristoteliciens. 
Done, comme il existe des interactions entre le son et Timage, il existe des interactions 
entre le son et le mouvement. C’est pour cette raison qu’il est indispensable d’introduire 
le corps en actions pour enrichir les theories concernant la localisation auditive. 

2.4.1 Les indices dynamiques de la localisation auditive 

D’un point de vue purement geometrique, il est equivalent que la source on Tau- 
diteur soit en mouvement. En revanche, d’un point de vue perceptif, les conditions de 
localisation auditive sont differentes. En effet, tandis que le mouvement d’une source 
sonore diminue les performances de localisation ([SMP92] cite dans [Beg94]), le mou¬ 
vement de Tauditeur, quant a lui, les ameliore. Depuis les premiers travaux de Wallash 
[Wal39], il est connu que le mouvement de la tete contribue a reduire le nombre d’in- 
versions avant-arriere et rend la localisation plus precise. Le systeme auditif est capable 
d’integrer des combinaisons de changement d’lTD, d’lID ainsi que le deplacement de 
resonances et d’antiresonances dans le spectre qu’induit le mouvement de la tete. De 
la meme fagon, le mouvement de translation de Tauditeur ameliore Tevaluation de la 
distance [SL93], puisque deux indices supplement air es, associes an flot acoustique (par 
analogie avec le flot optique pour la vision), sont accessibles. 

Le premier est le mouvement absolu de parallaxe {i.e. le changement apparent d’azi- 
mut occasionne par le mouvement de translation), illustre par la figure 2.9. Si D est la 
distance entre Tauditeur et la source, S, la distance parcourue, ai, Tazimut a Tinstant 
ti et a 2 , Tazimut a Tinstant t 2 , on a : 

_ S sin 0:2 

sin OL 2 —Oi\ 

Un tel indice est evidemment contraint par la capacite de Tauditeur a discerner les 
changements d’azimut de la source qui se degrade a mesure que la vitesse apparente 
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de la source augmente. De plus, si la source elle-meme est en mouvement, cet indice 
n’est plus exploitable seul, puisqu’il existe differentes combinaisons de distance et de 
trajectoire donnant un Hot acoustique identique. Enfin, il semble evident qu’un mouve¬ 
ment de rotation de la tete (meme volontaire et controle), s’ajoutant a un mouvement 
de translation, complique I’utilisation du mouvement de parallaxe pour I’inference de la 
distance. Cependant, nul ne sait dans quelle mesure cela represente une reelle degrada¬ 
tion des conditions de perception, meme s’il semble evident que I’auditeur doit traiter 
une quantite d’informations plus importante. 



Fig. 2.9 - Mouvement de parallaxe pour revaluation de la distance de la source [SL93] 

Le second indice est le « tau acoustique » , qui exprime le temps avant une even- 
tuelle collision. Le systeme perceptif est capable d’interpreter une certaine distorsion 
de perspective, qui s’exprime, dans le cas de la vision, par une variation de « I’etendue 
spatiale » apparente de la cible. Quant au systeme auditif, il semblerait, d’apres Speigle 
et Loomis [SL93], qu’il exploite avant tout les variations d’energie. Si / est I’intensite 
au niveau des oreilles de I’auditeur, le « tau acoustique » est done definit par : 



Il serait etonnant, que le systeme auditif, meme s’il est bien moins performant que le 
systeme visuel, ne puisse pas, lui aussi, interpreter les variations de largeur d’une source 
sonore. Malheureusement, aucune etude a notre connaissance n’a eu pour objet un tel 
indice de localisation. Enfin, ces deux indices supposent evidemment que I’auditeur soit 
capable d’evaluer sa propre vitesse avec une precision suffisante ce qui, d’apres Speigle 
et Loomis [SL93] et Berthoz [Ber97], semble etre le cas. 

Meme si les indices associes au Hot acoustique n’ameliorent que moderement les 
performances de localisation, on retiendra que I’action supplee a la perception en ge¬ 
neral et a la perception auditive en particulier. En outre, d’apres la theorie motrice de 
la perception de Berthoz [Ber97], la perception ne se resume pas au releve des stimu¬ 
lations sensorielles et a leur interpretation. Elle est conditionnee par I’action au meme 
titre qu’elle la provoque et qu’elle anticipe ses effets. « L’avantage du systeme evolue 
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n’est done pas la precision spatiale de I’information glanee, mais le fait qu’elle est obte- 
nue sans action (on avant action) » [dC04]. Or, I’avantage de I’audition sur la vision est 
justement qn’un evenement puisse etre pergu dans I’integralite de I’espace angulaire. 
Mise a part I’anisotropie qui decoule d’une resolution spatiale relativement faible et 
inegale, son extreme rapidite lui confere alors un role proactif fondamental. Comme le 
rappel Begault [Beg94], cela fait de I’audition la modalite ideale pour la « conscience de 
situation » (« situational awareness » ), dont Tune des fonctions principales, et non des 
moindres, est d’orienter la prise d’information. Ce que nous ne connaissons pas encore, 
justement, e’est le role du systeme auditif dans I’acquisition de connaissances spatiales, 
en d’autres termes, dans quelle mesure elle permet la construction d’une representation 
mentale de I’espace qui nous environne. 

2.4.2 Le role de I’audition dans la connaissance spatiale 

Nous n’avons eu de cesse, tout an long de ce chapitre de rechercher, quelle pou- 
vait etre I’utilite per se d’une modalite, qui, selon toute vraisemblance, se revele assez 
pen competitive pour la cognition spatiale. Aussi noble soit-il, nous ne pouvons nous 
resigner an role de facilitateur auquel Bregman cantonne les indices de la localisation 
auditive. Or, en introduisant la dimension kinesthesique de la perception, il est apparu 
que I’audition pourrait jouer un role decisif pour la « conscience de situation » d’un 
individu. Cela nous amene done tout naturellement a aborder le probleme de I’acqui- 
sition de connaissance spatiale qui s’ensuit, afin de determiner si I’audition, en plus de 
ses capacites avant action, avait quelques capacites en action. 

La perception spatiale ne se reduit pas a la simple analyse de notre environne- 
ment. Elle participe surtout a I’experience vecue sur laquelle se fonde notre cerveau 
pour construire des representations internes de I’espace, qu’il pent ensuite memoriser 
et manipuler. Or, pour reprendre le propos de Berthoz [Ber03], « la recuperation des 
donnees stockees dans les palais mentaux^, s’effectue grace a une veritable navigation 
mentale » , pour laquelle differentes strategies peuvent etre mises en oeuvre. Celle qui 
nous interesse particulierement, ici, est la strategic de route, qui « consiste a se sou¬ 
venir des mouvements, des tournants, des translations que nous avons effectues et a 
les associer a des reperes visuels que nous avons remarques [...]. Une telle strategie est 
fondamentalement ’egocentree’; le point de vue de I’analyse du monde est ’a la pre¬ 
miere personne’ » [Ber03]. Le cerveau est ainsi capable de reactualiser de fagon tres 
precise une representation mentale, durant la locomotion. En effet, nous nous sommes 
tons retrouves, un jour on I’autre, plonges dans I’obscurite totale apres une coupure 
d’electricite. Malgre I’absence d’information visuelle, nous montrons une certaine tiabi- 
lete a nous deplacer tout en evitant les obstacles. Cet exemple illustre parfaitement les 
capacites d’actualisation spatiale (« spatial updating » ), dont Loomis et Klatzky, entre 
autres, font I’etude. Ils proposent pour cela un modele d’etapes (figure 2.10), commun 

’^Berthoz fait ici reference a la methode mnemotechnique du meme nom, datant de I’Antiquite 
grecque, qui consiste a utiliser I’espace pour memoriser des objets, des mots, des evenements, des 
concepts, etc. 
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aux modalites visuelle, auditive, et linguistique {i.e. expression verbale de coordonnees 
spatiales), qu’ils affinent an gre des experimentations successives. 


stimulus ^ 

Encodage 

Image 

Actualisation 

reponse 


spatiale 

spatiale 



Fig. 2.10 - Les deux etapes du modele de I’encodage et de I’actualisation spatiale 
d’apres Loomis et al. [LLKG02] 


Une premiere experience, rapportee par Loomis et al. [LKPG98], a pour objectif de 
comparer les capacites d’actualisation respectives de la vision et de I’audition. Apres 
que les participants aient vu ou entendu une source cible, leur tactie consiste a se rendre 
directement ou indirectement {i.e. en passant par une position intermediate) a la po¬ 
sition de celle-ci, sans qu’aucune information sensorielle ne soit plus disponible. Les 
resultats indiquent qu’un individu est capable d’actualisation dans les deux conditions, 
bien que la position d’arret soit plus proche de la cible pour une exposition visuelle que 
pour une exposition auditive. Gonsiderant que les capacites de I’individu pour reva¬ 
luation de la distance sont inegales, la difference pourrait etre due essentiellement a la 
phase d’encodage. Une seconde experience [LLKG02] compare les modalites auditive et 
linguistique. Or, en isolant les biais {i.e. distance entre la position d’arret et la position 
de la cible) attribuables a chacune des phases de la navigation, ils n’observent qu’une 
tres faible difference de performance pour I’actualisation. Ils en deduisent une certaine 
equivalence fonctionnelle entre les deux modalites, prouvant que I’experience visuelle 
n’est pas une condition necessaire au developpement des capacites d’actualisation. II 
reste a determiner si une telle hypothese pent etre verifiee dans le cas d’une situation 
plus proche de I’experience quotidienne. 

Gette fois-ci, Klatzky et al. [KLLG03] presentent plusieurs cibles aux participants. 
Gomme precedemment, il y a une premiere phase d’encodage, durant laquelle une image 
spatiale est creee, mais surtout une phase d’apprentissage, durant laquelle la representa¬ 
tion se stabilise en memoire. Les participants doivent done prealablement memoriser les 
positions de chaque cible, suite a des expositions repetees. Ge n’est qu’une fois atteint 
un certain critere de performance de localisation, qu’ils accomplissent la tache d’actua¬ 
lisation, en empruntant divers chemins (directs et indirects) vers I’une des cibles. Or, 
tandis que I’hypothese d’equivalence fonctionnelle est verifiee pour les modalites auditive 
et visuelle, les resultats indiquent un biais d’actualisation superieur pour la modalite 
linguistique. D’apres les auteurs, il y a deux fagons d’expliquer cette difference : 

- soit, la nature de la representation spatiale est differente, 

- soit, les proprietes {e.g. la precision ou la pregnance) de la representation spatiale 
sont differentes. 


D’apres Klatzky et ah, bien qu’aucune certitude ne soit reellement permise, la deuxieme 
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hypothese est plus seduisante. Contrairement a la vue et I’oui'e qui produisent directe- 
ment des indices spatiaux, les descriptions verbales doivent sans doute etre converties 
afin de permettre une representation mentale plus facilement manipulable. L’image spa- 
tiale formee a partir du langage impliquerait done une charge cognitive plus importante 
pour I’actualisation. En outre, une etude precedente a montre qu’un individu etait plus 
lent pour memoriser les azimuts respectifs de cinq cibles, lorsqu’elles etaient indiquees 
a I’aide de description verbale plutot qu’a I’aide d’une source sonore. II n’est done pas 
deraisonnable d’affirmer que le langage est moins efficace pour la cognition spatiale. 


Les resultats presentes ici laissent entendre que la representation spatiale pent fonc- 
tionner comme une carte geographique sur laquelle le cerveau reactualise la position 
du corps. Or, le cerveau ne fonctionne pas necessairement avec une representation me- 
trique. D’apres Berthoz [Ber03], certains sujets dits « visuels » semblent effectivement 
reconstituer une image de I’environnement dans lequel ils evoluent. D’autres utilisent 
plutot les informations kinesthesiques ou liees a la commande motrice. Les contributions 
relatives de ces deux strategies pour I’acces a la connaissance ne semblent pas claire- 
ment identifiees. II est difficile de determiner des invariants de la cognition spatiale, tant 
les capacites humaines en terme de navigation dependent de I’environnement considere. 
Quoi qu’il en soit, on retiendra qu’un individu dispose de deux types de connaissance 
spatiale, I’une, egocentrique, issue de I’analyse de nos perceptions directes et de contin- 
gences sensorimotrices, I’autre, allocentrique, representation abstraite de I’espace pergu. 

La capacite de manipuler mentalement ces deux « points de vue » ne pent etre 
que profitable a la navigation, surtout dans de grands espaces tels que les environne- 
ments urbains. Meme si le role de I’audition spatiale dans un contexte aussi ecologique 
est relativement peu etudie, les resultats des experiences precedentes nous permettent 
de supposer qu’elle a bien une utilite per se, avant action aussi bien qu’en action. On 
ne pent nier I’existence de points de reperes (« landmarks ») dans nn paysage sonore, 
utiles non seulement a I’orientation, mais aussi a la connaissance plus generale de notre 
environnement. Comme le rappellent Bell et Dourish [BD04], on apprenait bien aux 
jeunes ecoliers britanniques, par le passe, a reconnaitre les differents sons de cloche des 
eglises de Londres, afin qu’ils ne s’y perdent jamais. 

2.5 Conclusion 

En resume, nous avons mis en evidence les resultats suivants : 

- La localisation auditive est bien plus precise dans le plan horizontal que dans le 
plan vertical. 

- II est difficile pour le systeme auditif d’identifier la distance d’une source sonore 
dans I’absolu. 

- Lorsque plusieurs sources acoustiques sont actives simultanement, les images de 
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celles-ci ne sont pas necessairement localisees au meme endroit et avec les memes 
qualites que si elles etaient actives les unes sans les autres {e.g. phenomene de 
fusion). 

- Le pouvoir de resolution spatiale de I’audition est bien plus faible que celui de la 
vision. En revanche, le pouvoir de resolution temporelle de I’audition est beaucoup 
plus important que celui de la vision. 

- Des stimuli visuels et auditifs coherents ainsi qu’une suggestion faite aux observa- 
teurs qu’il y a reellement coherence favorisera la fusion perceptuelle et par conse¬ 
quent augmentera la tolerance vis-a-vis de situations conflictuelles dans I’espace 
(« effet du ventriloque »). 

- Les differences spatiales ameliorent I’intelligibilite d’une source sonore en presence 
de bruit de fond (« effet cocktail party »). 

- Les groupements perceptifs par proximite frequentielle peuvent se faire au detri¬ 
ment des groupements par proximite spatiale. 

- Bien que I’on observe des differences en termes diencodage (creation de la represen¬ 
tation mentale) et d’apprentissage (stabilisation de la representation en memoire), 
les performances d’actualisation sont equivalentes pour une exposition visuelle on 
auditive. 

- Le langage, en tant que support pour I’acquisition de connaissance spatiale, est 
moins approprie que les indices de la localisation auditive qui peuvent produire 
« directement » des representations spatiales. 

Nous en avons alors deduit les conclusions suivantes : 

- Le systeme auditif presente une certaine robustesse face aux erreurs provoquees 
par des indices de localisation pen fiables, dans certaines situations. It is as if the 
auditory system wanted to tell a niee, consistent story about the sound [Bre94a]. 

- les differences spatiales jouent plutot un role de facilitation puisqu’elles amplifient 
la segregation fondee sur d’autres facteurs. 

- L’audition est la modalite ideale pour la « conscience de situation » (« situational 
awareness »), dont I’une des fonctions principales est d’orienter la prise d’infor- 
mation. 

- La vision n’est pas une condition necessaire de la cognition spatiale pour un indi- 
vidu normo-voyant. 

Maintenant que nous avons fait le point sur les performances du systeme auditif 
pour la localisation d’une sources sonore et son habilete pour la cognition spatiale en 
situation reelle, il nous faut prendre en consideration les particularites des conditions 
d’ecoute virtuelle, qui dependent grandement du dispositif utilise pour la reproduction 
du champ sonore. Cependant, nous ne pouvons pas nous contenter de decrire la qualite 
objective de ces dispositifs. II nous faut aborder le probleme, plus general, de la qualite 
subjective qui nous interesse plus particulierement dans le cadre de cette etude. 




Chapitre 3 

Qualite des dispositifs de 
spatialisation sonore 


Ce chapitre presente tout d’abord les criteres objectifs de la qualite d’une reproduc¬ 
tion sur haut-parleurs, decrivant les degradations relatives introduites par les techniques 
de panoramisation d’amplitude et Ambisonic. On y discute aussi de I’apport de la syn- 
these binaurale par rapport a la stereophonie mixte pour une reproduction au casque. 
Nous decrivons ensuite le processus complexe qui mene au jugement qualitatif (qualite 
subjective). Pointant sur I’insuffisance des methodes psychoacoustiques classiques, nous 
insistons sur le fait qu’il est necessaire de replacer les dispositifs de spatialisation sonore 
dans le contexte de leur usage pour mieux saisir les facteurs psychologiques mis en jeu 
et offrir une evaluation plus pertinente. Nous definissons alors les criteres utilises pour 
revaluation d’une interface lors d’un test utilisabilite. Enfin, nous sensibilisons le lec- 
teur au fait que, dans le cadre des interfaces humain-machine, la qualite d’un dispositif 
sonore se developpe selon un axe nouveau : celui de la signification. 


3.1 Qualite objective d’un systeme de reproduction sonore 

Afin de comparer la qualite des systemes de spatialisation sonore, il nous parait 
important, dans un premier temps, de differencier une diffusion sur haut-parleurs d’une 
diffusion au casque. Si Ton se rememore la grande influence de la vision du dispositif 
sur la localisation {section 2.2.2), il n’est pas difficile d’imaginer son influence sur le 
jugement qualitatif, sans parler de la gene occasionnee par le port d’un casque. Nous 
comparerons done ce que nous jugeons comparable : la stereophonie et la synthese 
binaurale, d’une part, la panoramisation par paires et VAmbisonic d’autre part. En 
outre, la Wave Field Synthesis fondee sur le principe de I’holophonie ([Jes73], cite dans 
[Nic99]), ne sera pas prise en compte ici. En effet, bien qu’elle represente I’approche de 
reproduction la plus fiable, assurant une restitution quasiment « parfaite » des effets 
de spatialisation, sa complexite de mise en oeuvre la rend d’emblee inconcevable pour 
des applications domestiques. 
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3.1.1 Les techniques de reproduction d’un champ sonore 

La methode Ambisonic, proposee par Gerzon ([Ger92b], cite dans [DanOl]) est une 
approche dite physique, qui consiste, idealement, a plonger un auditeur dans un champ 
en tout point identique a celui qu’il aurait pergu en presence de sources reelles. Ge- 
pendant, a la difference de la Wave Field Synthesis, cette methode ne consiste pas 
a reproduire le champ sonore sur une surface^, mais en un point donne de I’espace^ 
(on sweep spot), on le champ acoustique est decompose sur une base d’harmoniques 
spheriques^. La decomposition an premier ordre definit le format Ambisonic initiale- 
ment propose par Gerzon (B-format), constitue d’une composante omnidirectionnelle 
W et trois composantes bidirectionnelles X, Y, Z. La prise en compte des composantes 
d’ordres superieurs, on HOA (pour High Order Ambisonic), permet d’accroitre la reso¬ 
lution spatiale de la representation et d’etendre le sweep spot a une zone plus on moins 
etendue. Bien que V Ambisonic soit initialement une technique de prise de son (brevet 
depose par Graven et Gerzon [GG77], dont est issu le microphone Soundfield), elle pent 
etre utilisee pour la synthese de sources sonores virtuelles. Daniel [DanOl] definit une loi 
de panoramisation (on loi de pan-pot) equivalente, dont le gain associe a chaque haut- 
parleur est determine en fonction de sa direction, relativement a un meme diagramme 
polaire dirige vers la source (Figure 3.1). An premier ordre et pour N haut-parleurs, le 
gain Gi associe an haut-parleur Si est definit par : 

Gi = + 2cosai) 





Fig. 3.1 - Synthese de sources sonores virtuelles sur six haut-parleurs a I’aide d’un 
encodage Ambisonic du premier ordre [DanOl] 


^La WFS permet de reproduire le champs sonore sur une surface lorsque Ton dispose d’un cercle de 
haut-parleur (contour), et sur un volume lorsque Ton dispose d’une sphere de haut-parleurs (surface). 

’^En theorie, pour un ordre infiniment eleve, le champ pent etre reproduit, comme pour la WFS, sur 
une surface. En pratique (a un ordre N), une reproduction precise n’est possible sur une zone etendue 
qu’en basse frequence. 

®Nous recommandons la lecture de la these de Jerome Daniel [DanOl] pour une etude detaillee de 
cette methode. 
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Au contraire de I’approche physique, I’approche perceptive cherche a tirer profit 
des mecanismes de la localisation auditive, afin de simplifier le processus de reproduc¬ 
tion. C’est le cas de la stereophonie traditionnelle, qui comme nous I’avons remarque 
au chapitre precedent {section 2.2.1), tire profit du phenomene de fusion de sources so- 
nores. La methode VBAP (pour Vector Base Amplitude Panning), introduite par Pulki 
[PulOl] est une generalisation de la stereophonie d’amplitude a un nombre quelconque 
de haut-parleurs. En termes de diffusion multicanal, elle est clairement en concurrence 
avec la methode Ambisonic qui, bien qu’elle paraisse etre plus rigoureuse, n’en est pas 
necessairement plus avantageuse^. Par la suite, nous ferons reference au principe gene¬ 
ral de panoramisation par paires (ou pairwise panning), puisque nous souhaitons d’une 
part, nous restreindre a la localisation dans le plan horizontal (2D) et d’autre part, nous 
abstraire de la loi qui regit les gains des haut-parleurs {e.g. loi de pan-pot lineaire, en 
sinus ou en tangente). 

Comme le souligne Daniel [DanOl], les mecanismes impliques dans la reconstitution 
de I’image sonore sont tres differents, selon que les signaux stereophoniques sont pre- 
sentes sur haut-parleurs ou au casque. En effet, au casque, les differences de temps et 
d’amplitude se reportent directement sur les indices de localisation (ITD et IID), alors 
que chaque oreille pergoit un melange des signaux stereophoniques, lors d’une diffusion 
sur deux haut-parleurs®. Meme si elle produit des indices de localisation satisfaisants, la 
manipulation des indices interauraux, au casque, conduit a un cas particulier de locali¬ 
sation, appele « lateralisation » . Une source virtuelle est entendue systematiquement a 
mi-chemin entre les deux ecouteurs. En outre, sauf si les sources sont en mouvement, il 
est impossible a un auditeur de determiner si une source est dans I’hemisphere avant ou 
arriere. Les HRTF traduisant de maniere exhaustive le codage acoustique de la position 
de la source sonore, la synthese binaurale permet de lever, en partie, cette ambigui'te 
(meme si de nombreuses confusions avant-arriere se produisent toujours pour des sources 
statiques). Cependant, la contribution des indices spectraux pour la localisation dans 
le plan horizontal, done I’avantage de la synthese binaurale sur la stereophonie, n’est 
pas clairement etablie. En effet, en contraste avec I’effet de lateralisation, la synthese 
binaurale offre une veritable externalisation des sources virtuelles {i.e. elles ne sont pas 
contraintes au domaine delimite par les ecouteurs du casque), mais aucune etude a notre 
connaissance ne montre d’amelioration des performances de localisation. Or, si I’on en 
croit Begault [Beg94], les differences interaurales propres aux HRTF, particulierement 
si ces dernieres ne sont pas individualisees, presenteraient plutot un avantage en termes 
de qualite du rendu sonore, qu’en termes d’acuite de localisation. 

Cependant, comme nous I’avons deja remarque section 2.1.2, la localisation a I’aide 
des indices spectraux {i.e. dans le plan vertical median) est un mecanisme appris. En ef¬ 
fet, certaines etudes recentes ont mis en evidence I’existence de mecanismes d’adaptation 
du systeme auditif, permettant un veritable « re-etalonnage » des functions auditives 

'^Nous aurons I’occasion d’en dire un peu plus sur ce point, lorsque nous aborderons les facteurs 
psychologlques du jugement qualitatif, section 3.2.2. 

®A cause de cette diaphonie (ou cross-talk), une difference d’amplitude se reporte aux oreilles comme 
un retard dans un domaine basse-frequence. 
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spatiales propres a I’individu. Notamment, Blum et al. [BKW04] out montre qu’un au- 
diteur etait capable de s’adapter a des HRTF non-individualisees, suite a un certain 
entrainement, exploitant I’apprentissage d’association entre action et perception. Ainsi, 
peut-etre ne faut-il pas observer les performances de localisation lors d’une utilisation 
naive de la synthese binaurale (non-individualisee), mais sur une duree plus longue, 
prenant en compte certains effets d’apprentissage. 

En outre, on ne pent nier I’avantage qu’apporte la synthese binaurale pour le trai- 
tement des processus cognitifs. En effet, de nombreuses etudes [Eba03] montrent que 
I’utilisation de HRTF ameliore sensiblement I’intelligibilite d’un message sonore en pre¬ 
sence de bruit de fond et, plus generalement, les performances lors d’une tache d’atten- 
tion selective (« effet cocktail party »). Or, une telle habilete pent faire nettement la 
difference en situation d’usage. Par exemple, pour la navigation dans un environnement 
virtuel, offrant un paysage sonore deja tres riche, I’utilisateur pourrait etre en mesure 
de localiser plus rapidement une source vers laquelle il desire s’orienter. Ainsi, I’apport 
de la synthese binaurale par rapport a la stereophonie se mesurerait sans doute moins 
en termes de biais lors d’un report d’azimut, qu’en termes de temps de reaction ou de 
temps de prise de decision suite a un evenement dans une interface. 

3.1.2 Qualite objective de la reproduction sonore 

Au chapitre precedent, nous avons presente I’ensemble des facteurs qui devaient etre 
pris en compte pour comprendre la genese d’une image spatiale, a partir notamment des 
indices interauraux (ITD et IID). Pour comprendre les phenomenes perceptifs et cog¬ 
nitifs mis en jeu, la psychoacoustique postule de I’existence de ces indices. En d’autres 
termes, elle suppose que les sources sonores sont reelles, ou assimilables a des sources 
reelles, soit une reproduction a I’identique du champ acoustique (approche physique) 
ou celle de la stimulation induite au niveau du conduit auditif (approche perceptive). 
Cependant, les technologies de spatialisation sonore a usage domestique, voire, meme, 
celles mises en oeuvre pour une diffusion de large audience (cinema ou musique), sont, a 
quelques exceptions pres, des simplifications des technologies employees en laboratoire. 
Or, nous avons deja eu I’occasion d’observer I’inconsistance potentielle des espaces phy¬ 
sique et perceptif. II convient, en outre, de prendre en consideration I’inconsistance de 
I’espace physique et de I’espace virtuel. 

A la difference de I’espace perceptif, dont il est delicat d’en approcher les « qualites », 
sans avoir recours a revaluation subjective, I’espace virtuel, quant a lui, est plus na- 
turellement objectivable. Du moins est-ce le cas pour la restitution sur haut-parleurs 
dont la qualite et la robustesse de restitution peuvent etre en partie predites par les 
lois de la physique [DanOl]. En effet, prenant I’exemple de la stereophonie d’amplitude 
(figure 3.2), Gerzon ([Ger92a], cite dans [DanOl]) introduit deux grandeurs, permettant 
de deer ire avec une certaine precision les proprietes directionnelles d’une source sonore 
virtuelle : 

- Aux frequences basses (jusqu’a 500 Hz), les haut-parleurs peuvent etre consideres 
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comme des sources coherentes. Dans les cas d’une onde plane, la pression totale 
est egale a la somme des surpressions produites par chacune des sources. Si Gi est 
le gain du i-eme haut-parleur et uj, le vecteur unitaire pointant dans sa direction, 
on definit alors le vecteur velocite V par : 



- Respectivement, aux frequences hautes les haut-parleurs sont consideres comme 
des sources incoherentes. Dans ce cas, I’intensite totale est egale a la somme des 
intensites produites par ctiaque source. Comme precedemment, on definit le vec¬ 
teur energie E par : 



Fig. 3.2 - Vecteurs velocite V possibles en stereophonie a deux haut-parleurs [Ger92a] 


Si I’auditeur est an centre du dispositif, les vecteurs velocite et energie sont conside¬ 
res respectivement comme des predicateurs de I’effet de localisation en basse- et haute- 
frequence. D’apres Gerzon, ces deux vecteurs, doivent pointer dans la meme direction 
(celle de la source virtuelle) et leurs modules et Vg etre le plus proches possible de 
I’unite®. Aux frequences basses, c’est done I’orientation du vecteur velocite qui donne 
la direction apparente de la source virtuelle. Le module, quant a lui, reflete la degra¬ 
dation de I’image sonore produite, qui s’exprime essentiellement par une localisation 
plus « floue » (du a une diminution I’lTD par rapport a I’lTD naturel [DanOl]). Or, on 
pent constater, dans le cas d’une stereophonie d’amplitude (figure 3.2), que la norme 
du vecteur velocite est maximale dans la direction des deux haut-parleurs, et minimale 
dans la position frontale (0 °). 

®Nous n’entrerons dans les details de I’interpretation physique des vecteurs velocite et energie. Le 
lecteur interesse pourra cependant se rapporter a la these de Jerome Daniel [DanOl], pour de plus 
amples details 
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Le defaut majeur des techniques de panoramisation d’amplitude, telles que la VBAP, 
est done la variation de la largeur (on spread) apparente des sources en fonction de 
I’azimut [Pul99]. En outre, comme le rappelle [DanOl], si I’ecart angulaire entre deux 
haut-parleurs 6f depasse 45 ° la restitution risque de souffrir de I’effet «trou du milieu », 
du au contraste entre la pauvrete de I’image mediane et la precision des images a 
proximite des haut-parleurs. Cette attraction exercee par les haut-parleurs est encore 
plus critique lorsqu’ils sont situes sur le cone de confusion, comme e’est la cas pour la 
quadriphonie (±45 ° et ±135 °). Or, la presence de sources virtuelles laterales peut se 
reveler d’une grande importance pour la qualite d’un systeme de diffusion. De ce point 
de vue la geometrie dite « 3 - 2 » (figure 3.3), adoptee par la norme ITU-R BS.775-1 
[ITU94], apporte un certain avantage par rapport a la quadriphonie bien qu’elle rende 
quasiment impossible la reproduction d’une source sonore dans I’hemisphere arriere. 


^ * 7^ 



Fig. 3.3 - Geometrie dite « 3 - 2 » , adoptee par le format 5.1 de la norme ITU-R 
BS.775-1 [ITU94]. 


Cependant, si Ton desire assurer une qualite egale de la restitution dans toutes les 
directions, VAmbisonic pourrait representer le meilleur compromis, malgre I’instabilite 
de I’image spatiale en haute-frequence^. Si I’on revient a la configuration carree de la 
quadriphonie, meme si la qualite de restitution Ambisonic des images frontales pourra 
paraitre assez pauvre comparee a celle de la VBAP sur une configuration 5.1 classique, 
les conditions de I’iHusion auditive ne sont pas rompues par des ecarts angulaires trop 
importants. Comme le souligne Daniel [DanOl], « d’une part, le naturel de I’image 
sonore au regard des mecanismes basse-frequence est assure pour toutes les directions 
(r^, = 1); d’autre part, la qualite relativement pen precise attachee aux indices de 
localisation haute-frequence est garantie etre la meme pour toutes les directions (rg 
constante), permettant au systeme perceptif de s’en accommoder » . 


^L’ensemble des haut-parleurs contribuant a la reproduction sonore, une source peut etre pergue, 
dans la direction opposee, si I’anditeur se rapproche de ce cote. Pour remedier a ce probleme, le decodeur 
in phase peut etre utilise pour annuler la contribution des haut-parleurs diametralement opposes a la 
source virtuelle. 
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3.2 Qualite subjective d’une image spatiale 



Fig. 3.4 - jugement de la qualite (reproduit d’apres [Jek04]) 


Alois qu’il est relativement « aise » d’evaluer la qualite technique (ou objective) 
d’un dispositif de spatialisation sonore, il est beaucoup plus delicat d’en evaluer la qua¬ 
lite subjective, taut elle differe entre sujets. En effet, un auditeur peut aussi bien juger 
de la qualite d’une image sonore selon certains attributs perceptifs, qu’emettre une pre¬ 
ference orientee par des attentes ou une culture. D’apres Letowski ([Let89], cite dans 
[Rum02]), soit la qualite est tournee vers I’objet de la perception {object-oriented), soit 
elle est tournee vers le sujet de la perception {subject-oriented). Jekosch [Jek04], realise 
la meme dichotomie, mais utilise une terminologie differente. Elle definit ainsi la qua¬ 
lite comme le resultat d’une evaluation de la « nature pergue » d’une entite {perceived 
nature), an regard de sa « nature desiree » {desired nature). En d’autres termes, un in- 
dividu jauge les attributs perceptifs a I’aune de ses attentes, de necessites fonctionnelles 
ou de demandes sociales. La figure 3.4 illustre le processus complexe qui, selon Jekosch, 
mene an jugement qualitatif. 

Ainsi, le realisme d’un environnement sonore virtuel ou la haute fidelite d’un sys- 
teme de diffusion ne garantissent pas la satisfaction de I’auditeur. II est necessaire, avant 
toute chose, de connaitre les attributs perceptifs de I’espace sonore, ce qui pose deja un 
probleme de terminologie. Ensuite, il est necessaire de replacer le dispositif de spatia¬ 
lisation sonore dans le contexte de son utilisation pour mieux comprendre les facteurs 
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psychologiques mis en jeu. 

3.2.1 Attributs perceptifs de I’espace sonore 

Comme I’ont montre Pulkki et Hirvonen [PH05], il est possible de predire la di¬ 
rection apparente d’une source sonore, a I’aide d’un modele perceptif. Cependant, la 
prise en compte de I’integration des indices interauraux (ITD et IID) pour la formation 
d’un percept spatial unique necessite deja I’intervention d’une evaluation subjective. En 
outre, on se souvient que d’autres indices acoustiques participent a la determination de 
la position des sons crees par Torganisation perceptive {section 2.3.1). Leur contribution 
a la localisation pent meme se reveler assez importante lors de la reproduction d’une 
scene sonore composee de nombreuses sources. On pent alors avoir recours a differentes 
methodes de report d’azimut : estimation de I’angle en degre, marquage sur un cercle 
on une sphere (reproduit sur du papier on un ecran), orientation de la tete on d’un 
pointeur (acoustique, optique on haptique) vers la cible, etc. Cependant, comme le rap- 
pelle Rumsey [Rum02], des etudes recentes ([ZKOl], [BROO]) semblent indiquer qu’un 
auditeur ne juge pas la reproduction d’une scene sonore reelle {e.g. I’enregistrement d’un 
concert on d’une ambiance sonore) en termes d’acuite de localisation. Les differences 
spatiales entre deux scenes sonores sont plutot decrites en termes d' enveloppement et 
de largeur on de profondeur de scene. Or, si les objets visuels peuvent etre decrits avec 
un lexique simple, il n’existe pas vraiment de consensus pour la definition des attributs 
perceptifs de I’audition spatiale. 

Les methodes psychoacoustiques classiques proposent generalement de mettre en 
relation les mesures physiques et les mesures subjectives de I’interpretation humaine, a 
I’aide de choix forces. Le sujet s’exprime soit a travers une evaluation numerique, soit a 
travers des descriptions on des etiquettes verbales bipolaires, ce qui le limite dans son 
expression verbale. De telles methodes sont appropriees si I’on connait a I’avance quelle 
propriete du son est correlee a la qualite sonore que I’on vent atteindre. Ainsi, Barron 
and Marshall ([BM81], cite dans [Rum02]) ont pu avancer I’hypothese que la largeur 
d’une salle (caracterisee par I’energie des reflections laterales) est un facteur determi¬ 
nant de la sensation d'enveloppement. Cependant, le defaut majeur d’une telle approche 
est, paradoxalement, son manque « d’objectivite* » , puisque le sujet est contraint de 
s’adapter a des categories predefinies. Or, on pent objecter, comme Guastavino [Gua03], 
que « les representations du sonore sont structurees, comme les autres connaissances de 
sens commun, autour d’exemplaires representatifs et non pas sur la base de conditions 
necessaires et suffisantes » . Cette perspective accorde une importance particuliere an 
role de I’experience d’un individu dans la perception et replace la notion de qualite dans 
le contexte de I’usage. 

Ainsi, Maffiolo [Maf99] a employe des methodes d’analyse du discours, issues de la psy- 
cholinguistique, afin d’identifier la structuration perceptive des scenes sonores urbaines. 
Elle montre que les sujets regroupent priori!airement les sequences d’ambiances sonores 
urbaines sur la base du contenu semantique (identification de sources) et du carac- 

®Au sens courant du terme, i.e. qui manque d’impartialite 
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tere evenementiel (avec evenements sonores identifiables) ou amorphe (sans evenement 
sonore particulier) des sequences (tableau 3.1). 


Caractere 

Definition 

Evenement iels 

Sequences decrites par des termes designant des sources, des 
evenements ou des activites, indiquant une ecoute globale de 
reconnaissance (de type top-down) 

Amorphes 

Sequences decrites en general par des termes se rapportant 
aux proprietes physiques des sons indiquant une ecoute plu- 
tot analytique du signal (de type bottom-up) 


Tab. 3.1 - Caractere evenementiel et amorphe des ambiances sonores urbaines [Maf99] 


Les attributs perceptifs sont done tout autant issus de processus cognitifs ascendants 
(ou bottom-up), donnant lieu a une analyse plus ou moins evoluee de la scene auditive 
{e.g. enveloppement, largeur des sources ou de la scene, etc), que de processus descen¬ 
dants (ou top-down), fondes sur les connaissances prealables de I’environnement dont 
la scene auditive est sensee rendre compte {e.g. type de source sonore, activite, etc.). 
Par exemple, dans le cas de I’environnement urbain, les individus ne peuvent juger de 
la qualite d’un son, ou de la gene qu’il occasionne, independamment de la signification 
qu’ils lui attribuent [Maf99]. 

3.2.2 Facteurs psychologiques du jugement qualitatif 

Pour de nombreuses raisons, notamment d’ordre pratique, I’etude de notre environ- 
nement sonore urbain pent necessiter la reproduction de scenes sonores en laboratoire. 
Comme rindiquent, entre autres, Maffiolo [Maf99], Vogel [Vog99] et Guastavino [Gua03], 
il est alors fondamental de s’assurer de la validite ecologique de I’image sonore repro- 
duite. En d’autres termes, les bruits donnes a entendre doivent refleter I’environnement 
sonore cotoye quotidiennement, et permettre aux auditeurs de reagir comme s’ils etaient 
in situ {i.e. les sujets reactivent des processus cognitifs elabores en situation reelle). G’est 
sur ce critere, par exemple, que Guastavino [Gua03] [GKP+05] compare les restitutions 
Ambisonic multicanale® et stereophonique^^. Dans la continuite des travaux de Maffiolo 
[Maf99], elle observe qu’une diffusion stereophonique est ecologiquement valide pour 
I’identification des sources sonores (caractere evenementiel des sequences), mais qu’elle 
ne Test pas pour la reproduction du « bruit de fond » de la ville (caractere amorphe des 
sequences). Ge resultat indique que les attributs spatiaux sont d’une grande importance 
pour la perception du bruit fond urbain. II est tentant de rapprocher ce resultat, des 
observations faites dans les salles de concert, montrant I’importance du contexte envi- 
ronnemental (les reflections laterales, en particulier) sur la sensation d’enveloppement. 
Gela nous permet de remarquer, comme Ramsdell ([Ram78], cite dans [PelOl]), que le 

®Encodage Ambisonic du premier ordre (B-format) et decodage in phase pour une diffusion sur 6 
canaux espaces regulierement 

^“Couple AB-ORTF, soit deux cardioides espaces de 17 cm, 110 ° 
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fond sonore, auquel nous accordons le moins d’attention (on plutot, d’apres Lennox 
[LMVOl], une inattention seleetive) joue un role de premiere importance dans I’iHusion 
de presenee an sein d’un espace ainsi virtualise. En d’autres termes, Venveloppement 
d’un fond sonore semble etre une caracteristique fondamentale de la nature desiree, 
d’une reproduction faisant reference a I’experience vecue d’une architecture {e.g. une 
salle de concert, une eglise,...), d’une ville {e.g. une place, un marche, ...), on simplement 
de la nature {e.g. la foret, la montagne, etc.). 



Enregistrement multicanal sur cinq 
microphones cardioides 



Enregistrement midticanal 
Ambisonic Ordre 1 


Fig. 3.5 - Comparaison de deux systemes de prise de son pour une diffusion sur cinq 
canaux [Gua03] 


Cependant, s’agissant du jugement de preferenee, il est difficile de parler d’invariant. 
En effet, Guastavino et al. [Gua03] [GK04] a aussi compare, pour I’enregistrement d’un 
concert de musique ancienne dans un auditorium, les preferences respectives d’auditeurs 
specialistes (ingenieurs du son) et non-specialistes entre deux techniques de restitution : 
un systeme Ambisonie Soundfield, d’une part, et un systeme utilisant cinq microphones 
cardioides, d’autre part (Figure 3.5). Guastavino constate des criteres de choix diffe- 
rents en fonction des deux groupes, ce qui revele des strategies d’ecoute differentes : 

- les non-specialistes s’attachent plutot an sentiment d’immersion dans la scene 
restituee. Leur ecoute etant plus globale, ils preferent la restitution Ambisonic, 
plus enveloppante, bien que I’image soit plus floue, 

- les specialistes, quant a eux, ecoutent de maniere plus analytique et privilegient la 
precision et la stabilite an detriment de I’immersion. Ils preferent done le systeme 
compose de cinq microphones, qui reconstitue de fagon plus precise les scenes 
frontales, meme s’il est pen enveloppant (mauvaise restitution laterale). 

Ainsi, la realite virtuelle on mixte devenant plus courante, elle a su s’emanciper 
de I’ideal naturaliste d’une reproduction objectivement parfaite dans tons ses aspects. 
Gomme le rappelle Pellegrini [PelOl], les concepts de « realisme » on d’« authenticite » 
out laisse place a celui de « credibilite » (on plausibility), associant plutot la qualite 
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a I’adequation de la reproduction sonore avec une application et un individu donnes. 
Cependant, I’acception du terme qualite, sous-entend aussi I’integration des variables hu- 
maines au cycle de vie d’un produit commercial. Dans le cadre de I’lnteraction Humain- 
Machine [IHM ou HCI, pour Human Computer Interaction), dont il est question ici, 
nous limiterons I’implication du facteur humain a I’etude de Vutilisabilite (francisation 
du terme anglo-saxon usability) d’une interface, plus approprie pour la circonscription 
de notre problematique. Conformement a la norme ISO 9241-11 [IS098], un systeme est 
utilisable lorsqu’il permet a I’utilisateur de realiser sa tache avec efficacite, efficience et 
satisfaction, dans le contexte d’utilisation specifiee. Concretement, I’etude de I’utilisa- 
bilite d’une interface mene a revaluation des fonctionnalites d’un « outil » selon trois 
criteres essentiels : 

- (Efficacite) Les performances de I’utilisateur pour I’accomplissement d’une tache, 
par exemple la vitesse d’accomplissement, le temps d’apprentissage ou le nombre 
d’erreurs commises. 

- (Efficience) Les ressources (cognitives et/ou physiques) mises en oeuvre pour 
I’accomplissement d’une tache, par exemple la charge de travail, mesuree par le 
TLX (pour Task Load Index) de la NASA [NAS87]. 

- (Satisfaction) Le ressenti de I’utilisateur, evalue, par exemple, a I’aide d’un ques¬ 
tionnaire, ou d’entretiens d’autoconfrontation. 

Ainsi, de la meme fagon que nous avons tente de determiner au chapitre precedent 
quelle etait I’utilite des indices de la localisation auditive pour la perception et la cog¬ 
nition spatiale, il nous sera necessaire de nous poser la question de I’utilite (ou plutot 
de I’utilisabilite) d’un dispositif de spatialisation sonore dans une interface humain- 
machine. Pour cela, il nous faut avant toute chose etudier comment le son en general, 
pent « faire sens » pour un individu. 

3.3 De la qualite a la signification 

Jusqu’ici, nous avons aborde le probleme de la qualite sous Tangle de la reproduction 
d’une scene sonore. Nous faisions reference implicitement au cas d’une diffusion corres- 
pondant a une situation d’ecoute particuliere, bien que tres commune. Lorsqu’il s’agit 
de Tenregistrement d’un orchestre dans une salle de concert, d’une fiction radiophonique 
ou de la bande sonore d’un film, le jugement qualitatif s’exprime bien dans les termes 
que nous avons introduit : la « nature pergue » et la « nature desiree » de la reproduction 
sonore. Cependant, lorsqu’il s’agit d’une interface et plus generalement d’interaction et 
de communication humain-machine, les donnees du probleme sont differentes puisque 
Tindividu n’est plus seulement un auditeur qui « regoit », il est acteur et partenaire 
d’un echange. Les attentes vis-a-vis de la reproduction sonore ne sont plus exactement 
les memes. Le son a desormais une « function » et doit etre aussi evalue, comme I’a 
mentionne de Cheveigne [dC04], a I’aune de Taction qu’il guide. Si le son communique 
une information, favorise Taccomplissement d’une tache et conditionne Tactivite de Tin- 
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dividu, la qualite d’un dispositif sonore se developpe selon un axe nouveau : celui de la 
signification. 


Signifie 



Signifiant Referent 

Fig. 3.6 - La triade semiotique 


Du point de vue de la semiotique, tout evenement sonore pent etre pergu comme 
un signe, soit un objet conceptuel porteur de signification [Jek05]. Un signe est le plus 
souvent defini comme une chose qui vaut pour une chose differente, un instrument qui 
permet de traiter (ou communiquer) ce dont on n’a pas necessairement I’experience 
directe [KliOO]. Selon le modele triadique de Charles Sanders Peirce, I’objet d’une com¬ 
munication ou d’une signification donnee (le referent ou Vobjet), est exprime a I’aide 
d’elements perceptibles (le signifiant ou representamen), qui suscitent une image men- 
tale (le signifie ou Vinterpretant), correspondant au referent. Ce processus est souvent 
represente sous la forme d’un triangle, ou triade semiotique (Figure 3.6). Par conven¬ 
tion, le triangle est represente avec sa base en trait discontinu, pour indiquer que le 
rapport entre signifiant et referent n’est pas aussi direct que celui qui unit les autres 
entites. C’est la nature du signe qui determinera en partie la qualite d’une telle media¬ 
tion. L’ecoute d’un son en general, comme celle de la parole en particulier, pent ainsi 
etre consideree comme une situation de communication. Par exemple, le son d’un pro- 
duit de consummation (automobile, aspirateur, etc.) peut fournir a un utilisateur des 
informations sur ses fonctionnalites generates, son etat, les materiaux qui le constituent, 
sa surete, etc. D’ailleurs, les constructeurs automobiles portent depuis quelques annees 
un soin tout particulier au son emis par la fermeture d’une portiere, afin que celui-ci 
evoque la securite du vehicule. On regroupe aussi communement sous le terme « design 
sonore » de telles pratiques de creations sonores appliquees. 

Or, un systeme semiotique peut etre entendu dans un sens plutot statique ou, au 
contraire, dans un sens plutot dynamique et evolutif. Ces deux acceptions du termes ne 
conduisent pas a la meme analyse et a la meme description du processus de significa¬ 
tion. En effet, d’apres d’apres Stockinger [Sto99], la premiere se donne pour objectif de 
degager les composants structuraux qui les caracterisent (relevant du contenu et/ou de 
I’expression), afin d’en specifier des modeles et de pouvoir eventuellement les classer en 
types particuliers de systemes semiotiques. On se preoccupera, par exemple, de la fagon 
dont un son dans une interface humain-machine peut etre utilise pour communiquer 
une information, sense traduire « ce qu’il se passe » {e.g. « il n’y a plus de papier dans 
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I’imprimante »). Une telle approche est assez caracteristiques des etudes que I’on trouve 
dans la communaute ICAD (pour International Community for Auditory Display), qui 
out conduit, notamment, a la definition d’un certain nombre de mettiodes pour la repre¬ 
sentation sonore d’information adaptees a differentes situations d’usage (representation 
de donnees scientifique, surveillance de systeme, etc.). Par exemple, pour ne citer que 
la plus connue, la methode des auditory icons, utilisant des sons de notre quotidien, 
a ete introduite par William W. Gaver [Gav89] pour sonoriser les evenements d’une 
interface d’un systeme d’exploitation, tels que la selection, la suppression, la copie de 
fichier, Vouverture et \a fermeture de dossiers, etc. Le systeme semiotique est ici entendu 
dans un sens statique, puisque I’objectif est essentiellement de determiner la fagon dont 
peuvent etre construit les signes auditifs et le type de processus interpretatif qu’ils re- 
quierent. 

An sens large, un systeme semiotique pent aussi etre considere comme un systeme 
dynamique, evoluant dans le temps : un signe, tributaire d’nn contexte (de production, 
d’interpretation et d’utilisation), suppose servir a des objectifs et des tacties particu- 
liers. D’apres Salen et Zimmerman [SZ03] le jeu illustre parfaitement la distinction qui 
est faite ici. En effet, un jeu fait un usage intense de signes {e.g. une epee on une 
dague), qui prennent un sens lorsqu’ils sont interprets par le joueur {e.g. une epee est 
plus longue qu’une dague), mais leur « role » {e.g. la fagon de se servir d’une epee, les 
personnages qui I’utilisent ou les actions qu’elle permet) contribue aussi a leur signifi¬ 
cation. En d’autres termes, ils insistent sur le fait que la signification emerge autant de 
I’interpretation pure que de I’experience. Par exemple, un jeu tel que Sim City contient 
des centaines de representations, qui, bien qu’ayant leur signification propre {e.g. la cir¬ 
culation, le reseau electrique, les bailments, etc.), se combinent pour n’en creer qu’une 
seule : celle de la planification urbaine. Gette representation « emergente » est ctian- 
geante et donne acces a une forme de connaissance qui s’elabore durant I’activite, au 
fur a mesure qu’un utilisateur interagit avec le systeme et I’apprehende. 

Or, cet aspect dynamique des systemes semiotiques peut s’exprimer de differentes 
fagons. Par exemple, la connotation esttietique, stylistique ou affective d’un son, emer- 
geant d’un systeme de valeurs, propre a une societe ou un individu, peut avoir un impact 
considerable sur la fagon dont il est interprets par un auditeur. Ainsi, 1’analyse et la 
description dynamique viserait ici la comprehension des interactions entre nn systeme 
semiotique et son environnement {i.e. son contexte). G’est I’objet de la pragmatique 
d’etudier de tels phenomenes : le signe en action ou, pour reprendre I’expression de 
Klinkenberg [KliOO], « la vie des signes au sein de la vie sociale ». Gependant, si les 
fluctuations du systeme de codification d’un message vont bien a I’art pour lequel la 
communication est « gratuite^^ », elles posent probleme dans le cadre de la communi¬ 
cation humain-machine, dont le but est, avant tout, d’offrir un acces non ambigu a la 
connaissance. Pourtant, les « capacites encyclopediques^^ » de la machine ayant depasse 

^^Laissant a I’individu le loisir d’y « projeter des formes » [Mol71] 

^’^Expression employee par Murray ([Mur97] cite dans [SZ03]) pour qualifier les capacites de la ma¬ 
chine pour le stockage et la manipulation de I’information 
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depuis longtemps les capacites perceptives et cognitives de I’utilisateur, il est de plus 
en plus frequent que celui-ci n’ait acces a un instant donne qu’a une partie d’un vaste 
ensemble. On est alors contraint, par la force des choses, a une description dynamique 
de la signification puisqu’on admet qu’un individu devra construire sa connaissance par 
I’intermediaire d’une mediation technique I’obligeant a consulter « sequentiellement » ce 
qui ne peut I’etre « simultanement ». Par exemple, on a recours classiquement a des liens 
hypertexte pour naviguer de page en page a travers le reseau Internet et acceder a ses 
incroyables ressources documentaires. Avec le developpement des technologies de realite 
virtuelle on peut aussi avoir recours a la metaphore de la camera (ou a celle du micro¬ 
phone) pour modifier le flux spatio-temporelle d’un ensemble de donnees dont est offert 
une representation visuelle (ou sonore) en trois dimensions. Par exemple, Cubaud et al. 
[CTT98] ont developpe une interface 3D permettant d’explorer les ouvrages d’une bi- 
bliotheque en ligne en naviguant a I’interieur d’une scene VRML representant de grands 
rayonnages virtuels (Figure 3.7). 



Fig. 3.7 - Exemple de scene 3D pour la navigation dans la collection d’ouvrages d’une 
bibliotheque (d’apres Cubaud et al. [CTT98]) 


Plusieurs architectures ont du etre etudiees pour cette interface (lineaires ou heli- 
co'idales), afin de determiner quelle etait celle qui facilitait le plus la navigation dans 
la scene. L’objectif ici, et I’une des questions scientifiques majeures, est done bien de 
determiner comment I’espace, et pas seulement les objets qu’il contient, peut etre si- 
gnifiant. C’est d’ailleurs une preoccupation commune aux concepteurs de pare a theme 
et aux Level Designers de jeux video, qui utilisent I’espace comme « support » pour le 
developpement de themes narratifs. Mais c’est surtout celle des urbanistes qui, a I’image 
de Kevin Lynch [LynGO], se posent la question de la lisibilite (ou legibility) de la cite. En 
effet, comment le citadin se construit-il une image de son environnement, comment cette 
image evolue-t-elle au gre de son experience, existe-t-il dans la « forme physique » de 
la cite des unites discretes qui servent a la construction d’une telle image? De telles 
problematiques, liees a la navigation sont tout a fait transposables de I’espace reel a I’es¬ 
pace virtuel. C’est a ces questions, entre autres, que nous associons I’etude de I’aspect 
dynamique d’un systeme semiotique dans le cadre de la communication humain-machine. 

Ces deux approches indissociables de la description semiotique trouvent un echo 
dans le concept de « meaningful play » introduit par Salen et Zimmerman [SZ03], qui 
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considerent que, pour etre de bonne qualite, un game design}^ doit offrir une experience 
de jeu « signifiante » (meaningful). Or, d’apres les auteurs, I’activite ludique a un sens 
(« meaningful play »), lorsque les relations entre les actions du joueur et leurs conse¬ 
quences sont discernables et integrees : 

- (Discernable) signifie que les consequences immediates de Taction du joueur sont 
communiquees (feedback) de telle fagon qu’elles lui permettent d’avoir conscience 
de la situation presente. Une telle description correspond tout a fait a I’aspect 
statique d’un systeme semiotique. 

- (Integree) signifie que Taction du joueur ne prend pas seulement son sens dans 
Tinstant, mais qu’elle affecte aussi Texperience a plus long terme. Cette descrip¬ 
tion, quant a elle, correspond a Taspect dynamique d’un systeme semiotique. 

Considerons, cette foi-ci, Tusage de la spatialisation sonore pour illustrer la distinc¬ 
tion etablie ici. Imaginons que le joueur desire se rendre a un endroit de Tenvironnement 
qu’il ne voit pas, mais dont il entend Tactivite (voix, bruits de pas, etc.). La relation 
entre Taction du joueur et ses consequences sera discernable, si le systeme lui permet, 
d’une part, de localiser la cible sans ambigui'te et, d’autre part, de savoir a chaque ins¬ 
tant s’il s’en rapproche ou non. Elle sera alors integree, si la connaissance que le joueur 
a acquis de la position des differents sites explores et des chemins empruntes pour s’y 
rendre lui permet, a terme, de trouver son ctiemin vers (et de) n’importe quel endroit 
sans aucune assistance. 


3.4 Conclusion 

En resume, nous avons mis en evidence les resultats suivants : 

- Aucune etude a notre connaissance ne montre que la synthese binaurale ameliore 
les performances de localisation par rapport a la stereophonic mixte. A priori, si 
les differences interaurales propres aux HRTF presentent un avantage, c’est plutot 
en terme de qualite, qu’en terme d’acuite. 

- Le systeme auditif est capable d’adaptation, permettant un veritable « re- 
etalonnage » des functions auditives spatiales propres a Tindividu. 

- Le defaut majeur des techniques de panoramisation par paires est la variation 
de la largeur apparente des sources sonores (ou spread) en function de Tazimut. 
En outre, si Tecart angulaire entre deux haut-parleurs depasse 45 ° , la restitution 

^®Cette expression est laissee sous ga forme anglo-saxonne, puisqu’elle difficilement traduisible en 
frangais. On pent tout de meme en donner une definition. Pour Rollins et Adams [RA03], c’est « le pro¬ 
cessus d’imagination d’un jeu, de la definition des mecanismes qui le font fonctionner, de la description 
des elements conceptuels, fonctionnels, artistiques, etc ». Pour Salen et Zimerman » [SZ03], « Game 
design is the process by which a game designer creates a game, to be encountered by a player, from 
which meaningful play emerges. 
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risque de souffrir de I’effet « trou du milieu », du au contraste entre la pauvrete 
de I’image mediane et la precision des images a proximite des haut-parleurs. 

- Meme si I’image spatiale est moins precise que pour la panoramisation par paires, 
la qualite de reproduction d’un systeme Ambisonic est garantie etre la meme pour 
toutes les directions. 

- Un auditeur ne juge pas la reproduction d’une scene sonore en termes d’acuite de 
localisation. Les differences spatiales entre deux scenes sonores sont plutot decrites 
en termes enveloppement, de largeur de source, de profondeur de scene, etc. 

- Les attributs perceptifs sont tout autant issus de processus cognitifs ascendants, 
donnant lieu a une analyse plus ou moins evoluee de la scene auditive {enve- 
loppement, largeur de source, etc.), que de processus descendants, fondes sur les 
connaissances prealables de I’environnement dont la scene auditive est sensee 
rendre compte {e.g. type de source sonore, activite, etc.). 

- Les attributs spatiaux sont d’une grande importance pour la perception du bruit 
fond urbain. 

- L’activite ludique a un sens lorsque les relations entre les actions du joueur et 
leurs consequences sont discernables et integrees. 

Nous en avons alors deduit les conclusions suivantes : 

- On ne pent se contenter d’observer les performances de localisation lors d’une 
utilisation naive de la synthese binaurale (non-individualisee). II est necessaire de 
prendre en compte certains effets d’apprentissage, done d’observer revolution des 
performances au cours du temps. 

- L’apport de la synthese binaurale par rapport a la stereophonie mixte se mesure 
sans doute moins en termes de biais lors d’un report d’azimut, qu’en termes de 
temps de reaction ou de temps de prise de decision suite a un evenement dans 
une interface. 

- Si I’on desire assurer une qualite egale de la restitution dans toutes les directions, 
VAmbisonic pourrait representer le meilleur compromis, malgre I’instabilite de 
I’image spatiale en haute-frequence. 

- U enveloppement de I’arriere-plan semble etre une caracteristique fondamentale 
de la nature desiree d’une reproduction faisant reference a I’experience vecue d’un 
paysage sonore. 

- Si le son communique une information, favorise I’accomplissement d’une tache et 
conditionne I’activite de I’individu, la qualite d’un dispositif sonore se developpe 
selon un axe nouveau : celui de la signification. 

Tandis que I’on trouvera un certain nombre de travaux relatifs a I’usage de la spa¬ 
tialisation sonore pour la representation d’information (approche statique/discernable), 
les etudes qui abordent le probleme plus particulier de 1’acquisition de connaissances 
spatiales dans un environnement virtuel (approche dynamique/integree) sont, en com- 
paraison, assez anecdotiques. Cette lacune motive a elle seule I’etude d’interfaces de 
navigation dans un environnement sonore 3D. Cependant, avant de faire le choix d’ap- 
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profondir cette problematique, il nous a semble indispensable de faire le point sur les 
capacites representationnelles de la spatialisation sonore. En d’autres termes, nous sou- 
haiterions savoir si les technologies audio 3D sont reellement utilisables lorsqu’il s’agit 
de communiquer une information autre que la position d’une cible. Si ce n’est pas le cas, 
cela nous fournira un argument supplement air e pour justifier I’etude d’une navigation 
auditive. C’est ce que nous verrons an prochain chapitre. 
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Chapitre 4 

La localisation auditive pour la 
communication humain-machine 


Ce chapitre rappelle tout d’abord les fonctions unanimement reconnues de la moda- 
lite auditive dans la communaute ICAD (pour International Community for Auditory 
Display), puis introduit les trois grandes approches de la representation sonore d’in- 
formation : le mapping de parametres, les earcons et les auditory icons. Utilisant un 
formalisme emprunte a la linguistique, nous caracterisons les messages sonores selon 
leurs proprietes lexicale, syntaxique et semantique. Ensuite, apres avoir critique « le 
mythe des technologies de realite virtuelle », nous presentons en detail les differents 
travaux que nous avons juges representatifs (d’un point de vue academique) des cas 
d’usage de la spatialisation dans les interfaces humain-machine. Nous plagons alors les 
differents approches de la representation sonore d’information sur un continuum « ana- 
logique/symbolique », afin de mettre en evidence les capacites representationnelles des 
indices de la localisation auditive. Nous exposerons enfin les raisons qui nous ont conduit 
a restreindre le cadre de nos travaux de recherche a la conception d’interfaces de navi¬ 
gation dans les environnements sonores 3D. 

4.1 Utilisabilite des dispositifs sonores dans les interfaces 

Comme le rappelle Schafer [Sch93], pour les europeens, « voir, c’est croire » . Bien 
qu’il n’en a sans doute pas toujours ete ainsi, nul ne pent remettre en cause le fait que, 
dans les societes occidentales contemporaines, la vision est le mode de perception do¬ 
minant et le principal moyen d’acquerir de I’information Ainsi, I’utilisateur le moins 
experimente est capable d’interpreter sans effort les nombreux pictogrammes, symboles 
et autres icones d’une interface graphique. L’interpretation semble parfois meme telle- 

^« In the West the ear gave way to the eye as the most important gatherer of information about the 
time of the Renaissance, with the development of the printing press and perspective painting. One of 
the most evident testaments of this change is the way in which we have come to imagine God. It was 
not until the Renaissance that God became portraiture. Previously he had been conceived as sound 
and vibration » [Sch93]. 
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ment evidente, qu’il en oublie les conventions et accords prealables sur lesquels se fonde 
une telle communication. Or, meme si les messages on signaux sonores out ete utilises 
bien avant I’invention de I’electricite, il n’existe quasiment pas ddconographie auditive 
sur laquelle le concepteur d’une interface pourrait aisement s’appuyer. 

4.1.1 Fonctionnalisation de la modalite auditive 

Pourtant, la modalite auditive presente de nombreuses qualites qu’il serait bienvenu 
de mettre a profit. D’apres Kramer [Kra94], les principales qualites sont les suivantes : 

- (Substitut du canal visuel) Le canal auditif permet d’ajouter des dimensions 
supplementaires an dispositif de rendu. Cela se revele indispensable dans des cir- 
constances extremes on I’operateur d’un systeme doit maintenir un « contact vi¬ 
suel » permanent avec son environnement. C’est le cas notamment des pilotes 
d’avion on encore des controleurs aeriens. 

- (Detection rapide) Le temps de reponse a un son etant relativement faible 
(160 ms en moyenne pour une simple detection^ [BW80]), la modalite sonore 
pent jouer un role important dans les situations d’urgence. 

- (Alerte) Historiquement, les messages de prevention on d’alerte constituent le 
premier cas d’usage du son dans une interface^. Generalement les systemes d’alarme 
ne fournissent aucune autre information que I’occurrence de la situation critique 
qu’ils evoquent. Cependant dans certaines conditions, il est necessaire de fournir 
quelques details concernant notamment la provenance on la nature de I’alerte. 

- (Orientation) Comme nous I’avons deja mentionne (cf. section 1.4-1), le systeme 
auditif est capable de proposer quasi instantanement des hypotheses precises de 
localisation a quelques degres pres et en quelques millisecondes^ [HV098] lorsque 
surgit un evenement sonore. L’audition etant omnidirectionnelle®, elle permet 
d’orienter I’attention visuelle avec une grande efficacite (capacite de « situatio¬ 
nal awareness »). Par exemple, pour les taches d’exploration de donnees dans un 
environnement virtuel {e.g. la navigation dans un paysage sonore constitue de fi- 
chiers musicaux, comme le proposent Brazil et al. [BFTC02]), la modalite auditive 
pent se reveler utile pour indiquer la position de « regions d’interet » , en dehors 
du champ de vision, qui seront explorees ulterieurement. 

- (Traitement d’arriere-plan) Le systeme auditif est tres performant pour les 
taches de surveillance (on de « monitoring » ). Meme si I’auditeur n’accorde que 
pen d’attention a certains sons, il pent maintenir un degre de vigilance suffisant 
pour que tout changement attire son attention {inattention selective [LMVOl]). 

^Le temps de reaction correspond, ici, an temps necessaire a I’appui d’un bouton, ou d’une touche 
du clavier, lorsqu’un son seul est entendu. Ce temps de reaction augmente lorsque I’auditeur doit aussi 
reconnaitre une son parmi d’autres. 

®Ils ont ete I’objet d’une etude approfondie, par Paterson ([Pat82], cite dans [Bar97]) des 1982. 
la difference du temps de reponse precedent, celui-ci ne correspond qu’a I’etape de localisation, 
qui transforme I’information acoustique en une estimation de la position d’une cible. Il ne prend pas 
en compte le temps necessaire a I’initialisation d’une commande motrice. 

®Contrairement a la vision 
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- (Ecoute parallele) Un auditeur est aussi capable de partager son attention® 
entre plusieurs sources sonores, ce qui lui permet d’explorer et de comparer plu- 
sieurs ensembles de donnees simultanement. Nous avons vu, dans ce cas, que la 
separation spatiale jouait un role primordial. 

- (Haute resolution temporelle) Le pouvoir de resolution temporelle du systeme 
auditif, qui se situe de autour de 2 ms [Hir52], permet a I’utilisateur de detecter 
des evenements de tres courte duree et presentant une grande dynamique. C’est 
I’un des plus grands avantages du canal d’information auditif. 

- (Formation d’une Gestalt) Comme le rappelle Guastavino [Gua03], pour la 
Gestalttheorie'^, « les phenomenes de perception sont a comprendre comme des 
totalites et les objets de perception sont des formes qui emergent du fond pour 
venir s’imposer a nos sens ». G’est cette ttieorie qui a permis a Bregman [Bre94a] 
d’enoncer les principes de I’Analyse de Scene Auditive. Elle explique par exemple 
qu’un assemblage de note est autre chose qu’une succession de note, que le timbre 
d’un son est autre chose la somme des partiels qui composent son spectre, etc. 
Plus generalement, la Gestalt on forme est definie comme « autre chose on plus 
que la somme de ses parties » (Ehrenfels, cite dans [Gua03]). Or, I’existence d’une 
telle « hierarchie de messages qui jalonnent I’opposition fondamentale entre ordre 
proche et ordre lointain » (Moles [Mol71]), pent etre mise a profit pour la com¬ 
munication humain-machine. En effet, supposons que Ton alimente directement 
le convertisseur numerique/analogique d’une carte son avec un flot de donnees 
numerique (par exemple, des releves sismiques) et que I’on adapte la bande de 
frequence du signal ainsi cree a I’intervalle des frequences audibles (entre 20 Hz et 
20 kHz). Bien que le resultat d’un tel precede, que Ton appelle auditification, soit 
souvent inintellible, il parfois possible de discerner certaines relations generates on 
certaines tendances dans les donnees. 


4.1.2 Les approches de la representation sonore d’information 

Bien que les recherches concernant les interfaces sonores (on Auditory Display) ne 
semblent pas avoir atteint la meme maturite que cedes relatives aux interfaces gra- 
phiques®, les techniques proposees offrent des solutions a un vaste ensemble de pro- 
blemes. Outre Vaudification, qui consiste litteralement a « ecouter » un flux de donnees, 
on denombre essentiellement trois grandes classes de techniques dans la litterature : le 
mapping de parametres, les earcons et les auditory icons. 


®On ne pent dire si les capacites de partage d’attention auditive sont dues a des traitements stric- 
tement paralleles ou a un certain type de multiplexage temporel. 

Gestalt : mot allemand, signifiant forme, figure ou encore structure. 

®En effet, il n’existe pas de consensus veritable sur I’utllisation du son dans une interface comme 
c’est le cas, par exemple, avec le paradigme WIMP (Windows, Icon, Menu, Pointing) et la metaphore du 
« bureau ». De plus, la premiere conference ayant pour objectif de federer les travaux dans le domaine 
des interfaces sonores, ICAD (pour International Conference on Auditory Display), ne date que de 
1992. 
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Le mapping de parametres Les techniques de mapping sent similaires a celles 
mises en oeuvre pour les representations graphiques, telles que les « nuages de points » 
en statistiques, pour lesquels les attributs d’un symbole visuel {e.g. les coordonnees, la 
couleur, le type de symbole on la taille) sont determines par les valeurs des variables 
representees. D’apres Hermann [Her02], les fonctions de mapping, qui realisent la cor- 
respondance entre les donnees et les attributs perceptifs du son {e.g. duree, enveloppe, 
volume, hauteur, variation de hauteur, modulation d’amplitude, etc), sont generalement 
des fonctions monotones, dont on ne fait varier que les bornes (intervalles d’entree et 
de sortie), ainsi que la derivee an cours du temps (croissance on decroissance plus on 
moins rapide). 

Les earcons D’apres Blattner et al. [BSG89], les eareons sont des messages, appeles 
motifs, « constitues d’une succession de notes arrangees de fagon a produire des patterns 
melodiques suffisamment distincts les uns des autres, pour leur permettre de fonction- 
ner comme des entites uniques et reconnaissables ». Outre la polyphonie, la structure 
syntaxique des eareons peut etre caracterisee par des fonctions de transformation, de 
combinaison on encore d’heritage. Brewster [BCH98] a presente une approche structuree 
definissant des regies de composition et une organisation hierarchique des parametres 
musicaux (timbre, rythme, registre, etc.), permettant de representer I’organisation hie¬ 
rarchique des « fichiers » et des « dossiers » d’un systeme. 

Les auditory icons Cette methode, introduite par Caver [Cav89] consiste a employer 
des sons de notre quotidien (on « every day sound »), evoquant les sources qui les ont 
produites {e.g. un son de papier froisse accompagne la suppression d’un fichier dans 
une interface graphique qui utilise la metaphore de la « corbeille »). A la difference 
du mapping de parametres, on ne fait pas correspondre directement I’information a des 
attributs perceptifs du son, mais a un evenement {e.g. « le froissement d’une feuille de 
papier »). C’est cet evenement qui sera mis en correspondance avec un son [Gav97]. 
En cela, cette methode presente quelques similarites avec celle des eareons^. Cepen- 
dant, d’apres Gaver, les sons modelises a partir de notre environnement acoustique reel 
sont plus facilement interpretables, car I’humain est adapte a I’ecoute de ce type de 
son. Cette hypothese est fondee sur la theorie ecologique de la perception de Gibson 
[Gib79], qui affirme que Ton pergoit de fagon directe les affordances d’un objet^°. Par 
exemple, les deux portes de la figure 4.1 suggerent, par simple observation, des actions 
differentes (tirer et pousser). L’approche ecologique requiert done I’etude de ce que Ga¬ 
ver appelle « I’ecoute quotidienne^^ », soit d’apporter quelques elements de reponse aux 
deux questions suivantes : « qu’entendons-nous ? » et « comment entendons-nous ? » . 
Tandis que la premiere question concerne le contenu {e.g. un son d’impact), la deuxieme 

®Elles sont toutes deux des equivalents sonores des icones visuelles. 

^°Pour resumer, les affordances peuvent etre delinies comme les caracteristiques pergues d’un objet, 
qui sont utiles a Taction. 

^^Par opposition a « Tecoute musicale », fondee sur les caracteristiques psychoacoustiques du son et 
qui consiste a percevoir et analyser les proprietes acoustiques de ce son. On ne peut s’empecher de faire 
le lien, ici, avec Topposition de Schaeffer [Sch66] entre « ecoute reduite » et « ecoute ordinaire » . 
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concerne plutot les structures acoustiques qui permettent au contenu d’etre apprehende 
{e.g. amplitude de I’attaque, amortissement et frequence des partiels). 


TIRER POUSSER 



Fig. 4.1 - Exemple de perception directe des affordances d’une porte (d’apres Gaver 
[Gav91]) 


4.1.3 Du son au sens : categorisation des messages sonores 

Bien que ces differentes techniques aient chacune ete I’objet de nombreuses recom- 
mandations d’usage, issues d’etudes approfondies de leur utilisabilite, elles ne nous ren- 
seignent que tres partiellement sur la fagon dont un son est interprete dans le cas 
general. En effet, on pent deja remarquer qu’elles ne sont pas mutuellement exclusives. 
Par exemple, Hermann et al. [HDR03] utilisent une technique de mapping de para- 
metres pour representer revolution de releves meteorologiques quotidiens. Notamment, 
la vitesse du vent est mise en correspondance avec la frequence centrale et la largeur 
de bande d’un filtre passe-bande. II est aise, de cette fagon, de produire nn « bruit de 
vent » parametrable (frequence centrale et largeur de bande d’un bruit), ce qui n’est 
autre qu’une auditory ieon parametree. En outre, les auditory ieons et les eareons sont 
des methodes similaires^^, dans la mesure ou elles sont chacune les equivalents sonores 
des icones ou des symboles visuels. La distinction reside, en fait, dans la fagon dont 
sont construits les signes auditifs, soit, en d’autres termes, au type de processus inter- 
pretatifs qu’ils impliquent. Ainsi, Blattner et al. [BPG94] suggerent d’aborder le design 
des messages sonores sous 1’angle de la linguistique^^, soit de les caracteriser par leurs 
proprietes, lexieales, syntaxiques et semantiques. 

Proprietes lexieales D’apres Klinkenberg [KliOO], I’approche lexicale s’appuie sur 
« les regies qui president a la delimitation, a la constitution et aux choix des unites ». 
Le mapping de parametres illustre parfaitement I’approche lexicale des Auditory Display. 
Les attributs perceptifs du son jouent ainsi le role d’alphabet, qui comprend, notam¬ 
ment, la position spatiale. Bien qu’il existe un certain nombre d’attributs qui peuvent 
etre mis a profit pour I’expression d’un message sonore, certaines dimensions perceptives 

peut, tout aussi bien, utiliser une melodie descendant dans les graves plutot qu’un son de papier 
froisse pour representer la suppression d’un fichier. 

« Our approach is that these auditory messages may be structured as a langage and best understood 
through their syntax, semantics, and lexical properties » [BPG94]. 
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offrent une « resolution » plus importante que d’autres. Par exemple, la frequence offre 
probablement une meilleure resolution que la position spatiale. 


Proprietes syntaxiques « Les principes syntaxiques reposent sur la fagon dont les 
signes sont organises pour produire du sens » [KliOO]. Les regies pour I’organisation des 
signes sont appelees « grammaire » . Les sons employes pourraient etre des sons de notre 
quotidien, s’il existait au prealable, dans notre culture, des regies gouvernant leur assem¬ 
blage. Cependant, il serait difficile d’eviter la cacophonie d’un langage d’onomatopees. 
Or, justement, le solfege, mis a profit par les earcons, est issu d’une longue tradition 
musicale, offrant un repertoire extremement vaste de structures d’assemblage de notes, 
culturellement bien etablies. Cependant, meme si un auditeur pent facilement memori- 
ser un motif musical simple^^, I’association de celui-ci avec un evenement de I’interface 
demande un apprentissage consequent, etant donne le caractere arbitraire du signe ainsi 
constitue^^. Cette approche est tout de meme tributaires de la « resolution » des attri- 
buts perceptifs utilises. Par exemple, les earcons ne seraient pas utilisables, si le seuil 
de discrimination frequentielle de deux hauteurs tonales successives etait trop grand 
pour creer suffisamment de patterns melodiques reconnaissables. Ainsi, on pent emettre 
de serieux doute quant a Vutilisabilite de motifs spatiaux (trajectoire, configuration,...) 
dans une interface, meme c’est une dimension qui a deja ete introduit dans une demarche 
de composition musicale. 


Proprietes semantiques D’apres Klinkenberg [KliOO], la description semantique s’in- 
teresse a ce qui est signifie par le signe. On distingue communement trois grandes families 
de signes, selon le rapport qu’ils entretiennent avec le concept dont ils ont pour but de 
donner acces : les symboles (relation arbitraire entre la forme pergue et le contenu de¬ 
note^®), les indices (relation fondee sur la causalite^'^) et les icones (relation fondee sur 
la similarite^®). Caver, en introduisant le concept auditory icon est le premier, a notre 
connaissance, a avoir tente de formaliser cette approche pour le design des messages 
sonores, distinguant deux types de mapping, dans une interface : le mapping conceptuel 
et le mapping perceptif (Figure 4.2). D’apres Caver [Gav95], les analogies^® du monde 
reel permettent ainsi de fusionner les capacites representationnelles (Apparence) propres 
aux dispositifs de rendu (visuels ou sonores), et les capacites fonctionnelles (Fonctions) 
propres aux logiciels. En d’autres termes, grace a un mapping conceptuel, fonde sur la 


^"^Pour peu qu’il soit integre dans sa culture. 

« Dans le signe arbitraire, la forme du signifiant est independante de celle du referent : le rapport 
du signe a son objet a ete etabli par pure convention » [KliOO]. 

^®Par exemple, la couleur blanche comme symbole de purete, la balance renvoyant a la justice, etc. 

^^Par exemple, la fumee pour le feu, la direction d’une girouette, etc. 

^®Par exemple une photocopie, le plan d’architecte, I’ampleur d’un geste de mepris, proportionnelle 
au mepris que Ton veut exprimer, etc. 

^®D’apres Demarey et Plenacoste [DPOlbj, une analogie est le resultat d’un processus de comparaison 
entre la representation mentale d’une situation cible (d’un domaine exterieur a I’utilisateur) et la 
representation mentale d’une situation source ou referente (d’un domaine propre a I’utilisateur). 
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similarite^® (ou metaphore), entre les evenements de la machine et les evenements de 
notre quotidien, elles permettent de rendre intuitive I’interpretation des sons issus d’un 
mapping perceptif, devenu trivial {i.e. de type one-to-one^^). 


Analogic 

Dispositif de avec notre 



Fig. 4.2 - Mapping conceptuel et mapping perceptif dans une interface (d’apres Gaver 
[Gav95]) 


Ainsi, les earcons se focalisant sur les proprietes syntaxiques des messages sonores, 
ont, le plus souvent, un caractere arbitraire. N’etant pas contraintes, a la difference des 
auditory icons, par une analogie avec le monde reeP^, elles se montrent extremement 
polyvalentes^^. De plus, etant donne qu’elles necessitent I’apprentissage des regies de 
construction des sons, plutot que des sons, eux-memes, 1’apprehension de nouvelles re¬ 
presentations est rendue plus aisee. Gependant, le temps d’apprentissage initial pent 
se reveler critique, justement, a cause de leur caractere hautement symbolique^^. De 
ce point de vue, les auditory icons semblent presenter un avantage certain, puisqu’elles 
sont fondees sur une theorie de perception ecologique, qui devrait assurer, a priori, une 
interpretation conforme aux attentes du designer. Pourtant, d’apres Barrass, les resul- 
tats experimentaux indiquent des differences interindividuelles importantes^® [Bar97], 
qui contredisent la theorie de Gaver. Ainsi, il faudrait, sans aucun doute, admettre les li- 
mites de I’hypothese d’une perception ecologique, dans des situations de realite virtuelle 
aussi faiblement immersives, que celles proposees par la plupart des logiciels applicatifs 

’^“Relation de type icdnique (icone) ou indexicale (indice). En effet, pour Gaver les sons utilises dans 
une interface doivent etre des signes motives {i.e. la forme que prend le signifiant est determinee par 
celle du referent [KliOO]) et non arbitraires, afin de faciliter, notamment, leur apprentissage. 

’^^Par exemple, a I’analogie du monde reel «jeter a la corbeille » , correspond simplement la lecture 
d’un son evoquant le froissement d’une feuille de papier. 

’^’^Qui n’existe pas toujours. 

’^^Cependant, la possibilite de definir des regies d’heritage, rend leur usage particulierement pertinent 
pour la representation de structures hierarchiques {e.g. la navigation dans le menu d’un telephone mobile 
[LB98]). 

’^'‘Paterson ([Pat82j, cite dans [Bar97]) a observe que des novices etaient capables d’apprendre quatre 
a six sons symboliques en une minute. Gependant I’apprentissage de dix signaux pent demander une 
heure. Pour un nombre plus important, certaines personnes sont meme incapables de les apprendre 
dans leur integralite. 

’^^Selon I’experience d’ecoute et du contexte d’usage. 
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(dont I’objectif est avant tout la realisation d’un tactie). II semble, d’apres Truax [Tru92] 
(cite dans [Bar97]), qu’il puisse y avoir une « fracture schizophrenique^® »entre le source 
originate et son usage hors contexte dans une interface. 

4.2 Le my the des technologies de realite virtuelle 

Bien que les techniques de spatialisation sonore ne soient plus reservees aux seuls 
specialistes de I’audio^^ (chercheurs, musiciens ou ingenieurs du son), force est de consta- 
ter que leurs usages, dans les applications multimedia, sont d’une variete relativement 
restreinte. Get etat des choses n’est pas necessairement du aux technologies de spatiali¬ 
sation elles-memes qui sont suffisamment developpees, ni a I’imagination des designers, 
qui semble I’etre tout autant. Pour comprendre la situation actuelle, il nous parait im¬ 
portant, dans un premier temps, d’observer plus generalement ce qui motive les concep- 
teurs a employer les technologies de realite virtuelle dans une application grand public, 
que ce soit un logiciel de loisir ou un logiciel applicatif. 

4.2.1 La spatialisation sonore comme element cosmetique d’un jeu 

D’apres Crawford [Cra03], il est assez frequent que les concepteurs de jeux fassent le 
choix de privilegier la forme (typiquement, le design graphique et eventuellement sonore) 
au detriment du fond {i.e. le gameplay'^^). En effet, il semblerait, que les technologies 
de realite virtuelle, telles que les syntheses d’image et de son 3D, soient employees dans 
leur usage le plus commun a des fins essentiellement eosmetique {i.e. tout ce qui n’est 
pas utile per se, au gameplay"^^). Cela n’est pas necessairement du a une meconnaissance 
des capacites expressives et fonctionnelles de la dimension spatiale du son, mais plutot 
aux qualites^° supposees des jeux eux-memes. 


Le jeu est un produit de consommation Comme nous I’avons deja mentionne 
en introduction de la seetion 2.2, revaluation subjective de la qualite d’un produit est, 
entre autres, function de la « nature desiree » [Jek04]. Par exemple, il est peut-etre 
important pour le consommateur, qu’un logiciel (particulierement un jeu) exploite les 
fonctionnalites du materiel dont il a fait I’investissement. Ainsi, les algorithmes d'upmix, 
permettant d’extraire des eanaux surround a partir d’un contenu stereophonique (voir 

’^®Traduction litterale de I’expression « schizophrenic fracture ».) 

’^’’Voir Menshikov [Men03], pour une revue relativement complete des technologies audio 3D, actuel- 
lement disponibles sur ordinateur grand public 

’^®Meme s’il est delicat d’en proposer une definition precise, le terme « gameplay », pent etre defini 
comme I’ensemble des facteurs et des composants lies au contenu et au fonctionnement d’un jeu. Parmi 
ces facteurs, on distingue notamment le challenge, qui emerge d’un ensemble d’obstacles que doit 
surmonter le joueur. 

« I use the term cosmetics to describe those elements of the game that are meant primarily to look 
or sound good rather than to further the gameplay itself » [Cra03]. 

®°Le terme « qualite » n’est pas employe, ici, au sens des « qualia » , comme nous I’avons utilise 
precedemment, mais plutot au sens d’un « element de la nature d’une chose qui permet de la caracte- 
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Irwan et Aarts [IA02], Avendano et Jot [AJ04] et Faller [Fal06], pour un apergu des me- 
thodes les plus courantes), n’ont pas pour seule finalite d’ameliorer I’experience auditive 
de I’utilisateur (ou « content enhancement »). Aussi surprenant que cela puisse paraitre, 
malgre la presence d’un systeme multicanal, les contenus stereophoniques ne pouvaient 
etre diffuses jusqu’a present que sur les canaux frontaux. Ainsi, certaines cartes son 
grand public sont desormais accompagnees d’utilitaires qui permettent, par simple du¬ 
plication des canaux stereophoniques ou par extraction de ce que Ton suppose etre une 
« ambiance sonore » {e.g. la composante du signal qui presente une faible correlation 
inter-canal [IA02] [AJ04]), de combler les attentes de I’utilisateur, qui pergoit I’activite 
de I’ensemble de ses haut-parleurs. 


Le jeu est une experience esthetique Peu importe de savoir si le jeu doit etre 
considere comme un art ou non, on ne pent remettre en cause le fait qu’il est sou- 
vent I’occasion d’experiences esthetiques (visuelles et/ou sonores) a part entiere. Ainsi, 
meme si les avancees technologiques ne sont en aucune fagon la condition de la creati- 
vite, elles permettent assurement d’elargir le champ des domaines d’expressivite. II en 
a ete ainsi de la spatialisation sonore au cinema (meme dans sa forme la plus primi¬ 
tive, le Dolby Stereo) et il en est de meme aujourd’hui pour les jeux video^^. Si I’on 
en croit Chion [Chi97], il serait meme absurde de ne pas tirer parti des possibilites de 
creation qu’elle pent offrir^^. Pour lui, le son multi-pistes (plus generalement, la spatia¬ 
lisation sonore) « augmente la possibilite d’un creux, d’un vide dans le son - en meme 
temps qu’il elargit I’espace susceptible d’etre rempli. C’est cette capacite de vide, et 
pas seulement de plein, qui offre des possibilites inexplorees ». Or bien qu’elles soient 
relativement nouvelles pour le jeu video, les techniques spatiales ne le sont pas pour 
la musique. Comme le rappelle Roads [Roa98], des le seizieme siecle, les compositeurs 
associes a la Basil!que Saint Marc de Venise ont employe I’antiphonaire^^ spatial dans 
leurs compositions pour deux ou trois choeurs^^. S’agissant de la musique electronique, 
les possibilites esthetiques de la projection du son via des enceintes furent exploitees 
des la fin de la deuxieme guerre mondiale, et de nombreuses pieces ont vu le jour, dont 
Gesang der Jiinglinge de Karleinz Stockhausen, en 1956, Poeme Electronique d’Edgare 
Varese ou encore Concret PH de Iannis Xenakis, en 1958, pour ne citer que les plus 
anciennes. Cependant, bien que ces oeuvres semblent, a priori, nous renseigner sur les 
capacites expressives de la spatialisation sonore, les mysteres d’un «langage esthetique » 
des positions, des trajectoires, des formes, des plans sonores, et autres objets de tension 
et de resolution spatiales, restent relativement insondables (du moins dans le contexte 

Cependant, malgre leur apparente similarite, le jeu se distingue nettement par sa composante 
interactive, qui remet en cause un certain nombre de codes bien etablis au cinema. 

Chion critiquait alors I’attitude conservatrice de beaucoup d’auteurs de films dit « classlques » 
(notamment Fellini, Wenders ou encore Godard), refractaires a I’etonnante mutation que representait, 
a I’epoque, la generalisation du son Dolby. Cependant, on observe plus rarement cette attitude dans 
le domaine du jeu, tant les createurs se revelent etre portes sur la technologie (ce qui ne les rend pas 
necessairement plus sensibles au phenomene sonore). 

®®Recueil des chants, des antiennes de la messe utllisant la notation gregorienne. 

^'^Dans ces oeuvres, un vers initial etait entendu d’un cote de la salle, et un vers de reponse provenait 
de I’autre cote. 
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de notre etude). 

Le jeu video est une simulation Les jeux sont tres souvent I’occasion de simuler 
certains aspects de la realite, qu’il s’agisse de reproduire notre experience sensorielle 
dans un jeu de tir en vue subjective (ou FFS, pour First Person Shooter) ou le de- 
veloppement d’une civilisation dans un jeu de strategie. Or, comme le rappelle Salen 
et Zimmerman [SZ03], la technologie est encore consideree par certains concepteurs de 
jeux comme le moyen d’atteindre la perfection de I’experience illusoire, que Ton ne 
distinguerait plus de I’experience reelle. La synthese d’image tient d’ailleurs une part 
importante dans un tel « fetichisme technologique^® ». Pourtant, comme nous I’avons 
mentionne precedemment {seetion 2.2.2), la sensation de presenee ou dlimmersion n’est 
pas une qualite intrinseque d’un dispositif de rendu, mais est conditionnee par un cer¬ 
tain nombre de facteurs psychologiques, done propres a I’individu. Notamment, si Ton 
en croit certains theoriciens de la narration, tel que Murray ([Mur97], cite dans [Sto06]) 
ou Ryan ([Rya99], cite dans [Jac02]), la « suspension volontaire d’incredulite » (ou 
willing suspension of disbelief), introduit par le poete Samuel Taylor Coleridge [Col83], 
semble Tune des composantes fondamentales de I’immersion en realite virtuelle. En effet, 
meme si ce concept fut introduit initialement pour decrire I’illusion poetique procuree 
par I’imagination romantique^®, il peut etre employe plus generalement pour decrire 
I’aptitude d’un individu a faire abstraction du medium par lequel il accede au monde 
fictionnel (texte, image, son, etc.), afin d’imaginer ce dernier comme une realite auto- 
nome. Or, etant donne les capacites de recalibration du systeme auditif lorsqu’il est 
expose a des situations atypiques {e.g. effet ventriloque), il semblerait que la modalite 
sonore recele deja, de par sa nature, un enorme « potentiel de virtualite ». De plus, 
nous sommes habitues, dans notre vie quotidienne, a suspendre toute incredulite quant 
aux combinaisons improbables de sons qui nous parviennent {e.g. le son de la television 
dans le salon, auquel se superpose celui de la radio dans la cuisine, celui d’une sirene 
dans la rue, etc.). De meme, dans un film, peuvent se superposer potentiellement sans 
discordance la voix du narrateur, celle des acteurs, la musique et les sons d’ambiance. 
Ainsi, d’apres Begault [Beg94], I’experience acoustique virtuelle, particulierement si elle 
met en oeuvre les technologies de spatialisation sonore, semble plus facile a realiser et 
souvent plus convaincante que I’experience visuelle correspondante. 

Finalement, mis a part I’approche esthetique, aucune approche ne semble motiver 
I’exploration des capacites expressives de la dimension spatiale. En effet, d’une part, 
elles sont assez mal connues (parce que peu etudiees) et, d’autre part, il parait suffisant, 
au premier abord, d’assurer la congruence des espaces sonores et visuels, ce dernier 
servant veritablement de cadre de reference. Comme le souligne Chion [Chi85], « la 
question du point de vue s’est vite posee au cinema et s’est trouvee pensee, mise en 
oeuvre, analysee tres fortement par tous ceux qui [...] se sont affrontes a la question de 
son langage ». La question du point d’eeoute, quant a elle, « n’est pas traitee si finement, 

®®L’expression est empruntee a Salen et Zimmerman [SZ03] 

a semblance of truth sufficient to procure for these shadows of imagination that willing suspension 
of disbelief for the moment, which constitutes poetic faith » [Col83]. 
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semble-t-il, et I’on se borne souvent a la regler en postulant une correspondance realiste 
entre la distance an sujet filme et la distance an son emis par ce sujet. Ainsi entend-on 
faire du couple oeil/oreille un ensemble solidaire ». Pourtant, meme si un tel emploi des 
technologies audio 3D pent favoriser I’immersion, I’erreur est toujours de negliger le role 
que celles-ci peuvent jouer dans I’activite du joueur. II est done necessaire, pour sortir la 
spatialisation sonore de I’orniere naturaliste dans laquelle elle se trouve, de se poser la 
question de son utilite, done de la fagon dont on pent fonctionnaliser I’espace en general 
et I’espace sonore en particulier. 

4.2.2 De I’utilite de la perspective dans les interfaces WIMP 

An dela de I’habilete spatiale, propre a une modalite donnee, I’espace est une res- 
source que savons gerer, meme dans nos taches les plus quotidiennes. En effet, que nous 
cuisinions on que nous disposions nos provisions dans un sac an supermarche, nous or- 
ganisons tres souvent notre environnement de travail pour ameliorer nos performances. 
Comme I’indique Kirsh [Kir95], la fagon dont nous disposons les objets dans I’espace, 
lors de I’execution d’une tache, n’est pas le fruit du hasard, mais revele notre fagon de 
penser et, plus particulierement, de planifier nos actions expertes. Par exemple, rassem- 
bler en un meme endroit les objets ayant la meme fonction permet de les retrouver plus 
facilement lorsque Ton en a besoin. Ainsi, le systeme de fenetrage typique de I’interac- 
tion WIMP (Windows, Icons, Menus, Pointing) dans une interface graphique favorise 
un « usage intelligent de I’espace^^ » dans la mesure on il fournit a I’utilisateur un es- 
pace prealablement organise, fonde qui plus est sur une analogie avec le monde reel (le 
bureau). Le role principal de I’espace dans un logiciel applicatif est done de fournir des 
ressources supplementaires pour la creation d’une structure informationnelle, dans la 
limite des capacites perceptives et cognitives de I’utilisateur. Or, meme si la perspective 
visuelle est primordiale dans notre vie quotidienne pour nous saisir d’un objet on encore 
pour apprecier sa taille, rien n’indique, a priori, que nous utilisions systematiquement 
les trois dimensions de I’espace pour nos activites laborieuses. En effet, n’utilisons-nous 
pas un plan de travail pour ecrire, bricoler on cuisiner ? Ne mettons-nous pas «les choses 
a plat » pour exposer clairement, a soi-meme on a autrui, un probleme difficile a re- 
soudre (i e. en reexaminer dans le detail tons les elements) ? 

Ainsi, comme le rappelle Maltby [Mal06], bien que I’interface graphique en deux 
dimensions fut une reelle evolution en terme d’utilisabilite, puisqu’elle permettait d’ap- 
pliquer les principes de manipulation directe de Shneiderman [Shn83], I’introduction 
d’un troisieme degre de liberte {e.g. le projet Looking Glass de Sun [Hei04] on Sphe- 
reXP congu par Hamar [Ham06], illustre figure 4.3), done de la perspective, ne semble 
pas apporter d’amelioration significative, si ce n’est d’ordre cosmetique^*. En effet, on 
pent deja remarquer que les techniques proposees en visualisation d’information ne se 
developpent pas toutes dans les trois dimensions de I’espace. Par exemple, les interfaces 

®^d’apres I’expression de Kirsh, « intelligent use of space » [Kir95] 

®®« A user is still left with the feeling that this is something of a gimmick : attractive to look at, 
perhaps, and fun to play with, but not conducive to efficient task completion in the workplace » [MalOG]. 
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dites zoumables, telles que Pad++ [BH94] ou DataSplash [WLS98], se developpent es- 
sentiellement dans le plan. Plus concretement, etant donne les contraintes imposees 
par la projection sur une surface {i.e. I’ecran), 11 est difficile d’assurer une exploration 
visuelle efficace et efficiente d’un environnement 3D de vaste ampleur, en particulier 
si celui-ci est le vehicule de concepts issus d’un autre domaine (celui de la machine), 
n’ayant pas la meme dimensionnalite {e.g. une hierarchie de fichiers). De fagon un pen 
caricaturale, la question est done de savoir ce que Ton pourrait faire avec la geome- 
trie projective et la manipulation de polygones, que Ton ne pourrait pas faire avec des 
methodes simples utilisant la transparence, la translation et I’homothetie dans un plan. 



Fig. 4.3 - Augmentation 3D de la metaphore du bureau : SphereXP [Ham06] a gauche 
et projet Looking Glass [Hei04], a droite 


Le probleme est similaire dans le cas des technologies audio 3D. Meme si I’utili- 
sabilite des interfaces sonores n’est plus a prouver et qu’elles ont su se rendre indis- 
pensables dans certains contextes^®, I’apport d’une « perspective sonore » doit etre 
discute. Comme pour la synthese d’image 3D, nous souhaiterions determiner les raisons 
qui justifient I’utilisation de la spatialisation sonore. Cependant, il faut avant toute chose 
examiner comment et a quelles fins elle pent etre employee dans une interface humain- 
machine. Pour cela, nous allons presenter les quelques applications symptomatiques de 
la dimension spatiale du son, sur laquelle nous nous appuierons pour emettre quelques 
hypotheses sur ses capacites representationnelles, et restreindre notre etude d’un point 
de vue applicatif. 


4.3 La fonctionnalisation des indices de la localisation au¬ 
ditive 

Connaissant mieux comment le son, en general, pent etre fonctionnalise et etre 
porteur de sens, nous allons nous poser, plus precisement, la question des capacites re- 


notre connaissance, ce point n’est pas discute dans la litterature. 
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presentationnelles des indices de la localisation auditive. Nous motiverons tout d’abord 
la problematique en faisant le rapprochement avec I’introduction d’une troisieme di¬ 
mension dans les interfaces visuelles 2D {e.g. metaphore du bureau). Nous tenterons, 
par la suite, de determiner les raisons qui justifient veritablement I’utilisation de la spa- 
tialisation sonore, si ce n’est le raffinement esthetique on I’immersion. En presentant 
quelques cas d’usage juges representatifs, et en considerant les mecanismes de la loca¬ 
lisation auditive et leurs limites, nous serous alors seulement en mesure de restreindre 
le contexte applicatif de nos travaux et, du meme coup, de faire le choix entre les deux 
approches de la description des systemes semiotiques que nous avons presentees section 
3.3 {statique/discernable vs. dynamique/integree). Plus concretement, nous souhaite- 
rions savoir si les technologies audio 3D sont reellement utilisables lorsqu’il s’agit de 
communiquer une information autre que la position d’une cible. Si ce n’est pas le cas, 
cela nous fournira un argument supplementaire pour justifier I’etude d’interfaces pour 
la navigation dans les environnements sonores 3D. 

4.3.1 Prelude aux interfaces sonores spatialisees 

Etant donne I’utilisabilite des systemes de fenetrages^*^ (et de I’interaction de « poin- 
tage+selection » on de « pointage+trace »), certains chercheurs out tout naturellement 
tente d’adapter ce paradigme a la modalite auditive. Or, comme le rappelle Marentakis 
et Brewster [MB05], le pointage est une composante fondamentale des interactions a 
manipulation directe, puisque c’est I’une des methodes les plus efficaces et intuitives 
pour exprimer la position d’un objet cible. La premiere difficulte est done de concevoir 
un curseur acoustique qui puisse etre controle efficacement par Lutilisateur {i.e. avec 
precision et rapidite), sans surcharger le paysage sonore potentiellement tres riche. Plu- 
tot que d’assigner le pointeur a une source sonore qui serait audible a tout moment, 
Cohen et Ludwig [CL91] [CL93] proposent done que ce soit les attributs perceptifs des 
objets, eux-memes, qui renseignent de leur etat {e.g. selectionne, saisi, etc.). Ils de- 
finissent alors trois operateurs {Spotlight^ Muffle et Accent), qu’ils nomment Filtears, 
modifiant suffisamment le son d’une source pour que le feedback d’une action soit appre¬ 
ciable, mais non intrusif (on jnd, pour just noticeable difference). Par exemple, lorsque 
Lutilisateur dirige sa main ouverte vers une source sonore (Figure 4.4), Cohen et Lud¬ 
wig suggerent d’utiliser diverses combinaisons d’effets audio {e.g. echos, transposition 
de hauteur tonale, etc.) pour signifier que I’objet correspondant a bien ete selectionne 
{spotlighted). De meme, lorsque Lutilisateur ferme sa main pour exprimer le desir de 
se saisir de Lobjet (Figure 4.4), la source sonore est assourdie {muffled), comme c’est 
le cas lors d’une occlusion (filtrage passe-bas). Lorsqu’il approche son bras vers lui en 
gardant la main fermee pour deplacer Lobjet (Figure 4.4), le niveau sonore de la source 
augmente, selon la loi classique dite « en 1/r » {i.e. chaque doublement de distance 

"^^Leur utilisabilite a cependant des limites. En particulier, comme I’indique Maltby [Mal06], I’un 
des problemes les plus connus est du a une mauvaise gestion de la juxtaposition des fenetres utilisees 
durant une tache {window thrashing [Hen86]). En effet, I’utilisateur doit constamment repositionner les 
fenetres de I’interface, meme pour realiser les taches les plus simples, telles que copier, couper ou coder 
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implique une perte supplementaire de 6 dB [Col63]). 


Source ^ 
silectionnie ^ 
(spotlighted) 




Source 

diplacie 

(gain) 




Fig. 4.4 - Action sur un objet et feedback sonore dans Handy Sound{adapte de Cohen 
et Ludwig [CL93]) 


Enfin, V Accent est utile pour imposer une organisation hierarchique de priorite dans 
un ensemble d’objet, rendant certaines sources sonores plus saillantes que d’autres. 
Meme s’il pent utiliser le meme type d’effets audio que le Spotlight, cet operateur se 
differencie des deux autres par sa persistance apres la selection et la prise en main. 

Par I’utilisation de dispositifs complexes de capture gestuelle (mouvement de la tete 
et de la main), I’environnement HandySound dont nous venous de decrire les premieres 
fonctionnalites ici (Figure 4.4) ressemble davantage aux environnements virtuels au¬ 
dio que Ton rencontre en laboratoire, qu’aux environnements bureautiques de travail 
que nous utilisons couramment. Cependant, il annonce les premisses d’une interaction 
de manipulation directe dans le domaine de I’audio et nous offre I’occasion d’une pre¬ 
miere reflexion sur I’usage de la spatialisation sonore dans une interface. Premierement, 
un tel dispositif nous indique qu’il est possible de manipuler des objets dans un espace 
acoustique organise, comme nous le faisons habituellement dans une interface graphique 
classique. La perception subjective {i.e. I’utilisateur pergoit « de I’interieur » les objets 
d’un environnement sonore) sied bien aux qualites omnidirectionnelles de la modalite 
auditive. Deuxiemement, il semble que les interfaces sonores se developpent prefera- 
blement dans les deux dimensions du plan horizontal. En effet, le faible pouvoir de 
resolution spatiale dans le plan vertical median (Figure 2.5, section 2.1.2) rend I’uti¬ 
lisation de I’elevation delicate. En d’autres termes, elle n’est pas un degre de liberte 
pertinent pour qui vent simplement tirer profit des capacites organisationnelles de I’es- 
pace sonore, particulierement si I’image spatiale est degradee par le dispositif de rendu. 

La connaissance des mecanismes de I’Analyse de Scene Auditive [Bre94a] est fonda- 
mentale pour la conception d’un tel dispositif, puisque les groupements perceptifs rea¬ 
lises par le systeme auditif conditionnent en grande partie I’intelligibilite d’une mixture 
sonore, done la capacite de I’utilisateur a travailler dans I’environnement virtuel. Or, 
nous avons vu que la separation spatiale pouvait avoir un impact benefique sur les taches 
necessitant une attention selective on meme partagee. L’« effet cocktail party » confere. 
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de la sorte, aux technologies audio 3D un grand potentiel pour les applications de te¬ 
lecommunication et de travail collaboratif, telles que la teleconference. De fagon plus 
generale, Tune des grandes forces de la spatialisation sonore est de favoriser la discri¬ 
mination et la reconnaissance de multiples sources concurrentes, done d’augmenter la 
densite d’information que I’on pent communiquer simultanement. 

4.3.2 La spatialisation sonore pour la detection de cibles visuelles 

Les capacites d’attention selective, mises en valeur par !’« effet cocktail party », per- 
mettent a un auditeur de focaliser son attention sur une source sonore, tout en mainte- 
nant un certain degre de vigilance sur les autres sources qui composent le paysage so¬ 
nore. En d’autres termes, les differences spatiales facilitent les traitements d’arriere plan, 
particulierement lorsque plusieurs processus doivent etre surveilles simultanement. Par 
exemple, Gaver [GS091] a etudie les performances d’un utilisateur pour la surveillance 
d’une usine simulee de fabrication de bouteille (aRKola). Durant cette experience, les 
sujets devaient reagir a tout changement dans le processus de fabrication a differents 
niveaux, global (la production de bouteilles) et local (defaillance d’une machine). Mal- 
gre une quarantaine de sons differents a surveiller simultanement, les sujets ont reussi 
a accomplir la tache avec succes. Les resultats ont montre que la modalite auditive, 
en comparaison de la modalite visuelle, permettait de reduire significativement le taux 
d’erreurs et d’accelerer le temps de reaction, tout en facilitant la collaboration avec un 
autre utilisateur. Ainsi, comme nous I’avons deja remarque {section 2.4-1), I’extreme 
rapidite du systeme auditif lui confere un role proactif fondamental, faisant de 1’audition 
la modalite ideale pour I’orientation de la recherche d’information visuelle (« conscience 
de situation »). 



Fig. 4.5 - A gauche : illustration de la tache de recherche visuelle. A droite : mesure 
du temps de reaction moyen en fonction du nombre de distracteurs (1 a 64), pour un 
ecart de 14,8 ° par rapport an centre de I’image (adapte de Perrot et al. [PSSS91]). 


En effet, I’une des qualites qui rend I’audition tres utile pour les systemes d’alarme 
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est sa capacite d’orienter I’attention visuelle. Paulsen et Ewertsen [PE66] ont d’ailleurs 
montre I’existence d’un « reflexe audio-visuel » (ou audio-visual reflex), qui a pour effet 
d’orienter le regard de fagon tout a fait involontaire vers une source sonore saillante et 
inattendue. Or, comme le rappelle Perrot et al. [PSSS91], d’une part I’etendue du champ 
de vision ne depasse pas 80 ° dans le plan horizontal et, d’autre part a la peripherie de ce 
champ (environ la moitie du champ de vision), la resolution spatiale est generalement 
inferieure a 5% de celle obtenue au voisinage de la fovea (zone centrale de la retine ou 
la vision est la plus precise). Ainsi, lorsque Ton fait correspondre la position d’nn signal 
sonore avec celle d’une cible visuelle, les performances lors de la recherche visuelle de la 
cible s’en trouvent accrues. Perrot et al. [PSbSOO] ont observe que le temps de recherche 
etait reduit de 500 a 700 ms lorsque la cible se trouvait en dehors du champ de vision 
(azimut superieur a 80 °), de 200 a 500 ms a la peripherie (azimut entre 10 ° et 80 °) et 
d’environ 175 ms au voisinage de la fovea (azimut inferieur a 10 °). Ce dernier resultat 
est le plus surprenant, puisqu’il semble indiquer que la spatialisation des sources sonores 
ameliore encore les performances de localisation dans la region ou I’acuite visuelle est la 
plus importante. Perrot et al. [PSSS91] precisent d’ailleurs que I’utilite de I’information 
auditive est plus evidente lorsque la vision est surchargee. En effet, si les indices de la 
localisation auditive n’ameliorent pas significativement les performances pour la vision 
foveale (difference d’a peine 50 ms pour une azimut de 2 °), Perrot et al. observent une 
difference d’environ 300 ms, pour un decalacage horizontal de 15 ° du centre de I’image, 
lorsque 64 distracteurs sont affiches simultanement (Figure 4.5). 



Fig. 4.6 - Mapping entre I’azimut de la cible visuelle et I’azimut du signal sonore 
correspondant (adapte de Begault) [Beg93] 


Begault [Beg93] observe des resultats similaires durant la simulation d’une situation 
reelle. Pour cela il a congu un systeme d’alarme {TCAS, pour Traffic, Alert and Colli¬ 
sion Avoidance System) prevenant I’equipage d’un avion de ligne d’un risque eventuel 
de collision (quarante secondes avant I’impact suppose). L’evaluation prend done en 
compte un certain nombre de contraintes, liees a la situation d’usage. En effet, a la 
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difference de Perrot et al. [PSbS90] qui utilisaient des sources physiques {i.e. placement 
d’un haut-parleur dans la direction de la cible), il met en oeuvre une synthese binau- 
rale non-dynamique (pas de head-tracker) et non-individualisee (HRTF du sujet SDO, 
mesurees par Wightman et Kistler [WK89]). De plus, I’azimut du signal visuel ne cor¬ 
respond pas tout a fait a I’azimut du signal sonore. Tout d’abord, comme on peut s’en 
apercevoir sur la figure 4.6, I’ensemble des azimuts des sources sonores est discretise en 
sept secteurs angulaires, centres respectivement autour de -90 ° , -60 ° , -30 ° , 0 ° , 30 ° , 
60 ° et 90 ° . Ainsi, si une cible visuelle apparait par exemple a 18 ° d’azimut, I’alerte 
sera diffusee a 60 ° . D’apres I’auteur, une telle distorsion est justifiee car elle permet 
d’exploiter I’integralite de I’hemisphere frontal (de -90 ° a 90 °) et done potentiellement 
d’optimiser I’ecart angulaire entre les sources sonores, ce qui facilite leur discrimination 
(« effet cocktail party »). 

De tels artifices n’empechent pas le systeme d’alarme de diminuer de plus de 2 se- 
condes, le temps necessaire a I’acquisition d’une cible visuelle. D’apres Begault, I’ecart 
de performance par rapport aux resultats de Perrot et al. [PSbS90] est du an fait que 
les cibles soient en mouvement, et que I’experience soit la simulation d’une veritable 
mission. Meme si I’auteur ne donne pas de detail sur les taches supplementaires qui 
doivent etre effectuees pour mener a bien la mission, il est tres probable que I’atten- 
tion visuelle etait partagee, ce qui n’etait pas le cas pour I’experience de Perrot et al. 
Comme nous I’avons deja mentionne, I’usage de la modalite sonore se revele done etre 
indispensable lorsque I’operateur d’un systeme doit maintenir un contact visuel perma¬ 
nent avec son environnement. Enfin, une difference significative a ete observee, alors que 
les signaux sonores ne fournissaient que des informations de position tres grossieres (par 
pas de 30 °) et que le systeme de spatialisation ne compensait pas les mouvements de 
tete de I’auditeur (absence de systeme de head-tracking). Or, comme I’indique Begault, 
si Ton suppose que le son ne donne que des indications generates d’orientation pour 
amorcer une recherche visuelle plus precise, I’acuite qu’offrent les indices de localisation 
dynamique n’est pas utile. On s’eloigne done de la realite virtuelle, et de la relation 
biunivoque entre I’espace visuel et I’espace auditif. Le rendu sonore de la position des 
cibles presente deja un certain niveau d’abstraction. La position de la cible n’est pas 
exprimee dans le referentiel de I’auditeur (on plutot celui de sa tete), comme e’est la 
cas naturellement, mais dans celui du vehicule qu’il controle. C’est un premier exemple 
de desolidarisation du point de vue et du point d’ecoute. 

4.3.3 Les capacites representationnelles de la spatialisation sonore 

La sonification peut etre definie, dans son acception la plus generate, comme la cor- 
respondance entre un ensemble de donnees et les parametres de controle d’un processus 
de synthese sonore. Comme le resume Barras et Kramer [BK99], « the idea behind so¬ 
nification is that synthetic non-verbal sounds can represent numerical data and provide 
support for information processing activities of many different kinds^^ ». Or, de nom- 

'‘^Meme si dans son acception la plus generale la sonification est « I’utilisation du son (hormis le 
langage parle) pour communiquer une information », le terme sous-entend le plus souvent la represen- 
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breux auteurs, taut du domaine de la visualisation [CR98] que de la sonification [BK99] 
[DN03] [WK04], out mentionne le besoin de concevoir des processus de representation 
plus sensibles aux caracteristiques des donnees elles-memes {e.g. nominales, ordonnees, 
quantitatives, ou encore spatiales, temporelles, hierarchiques). Par exemple le timbre 
etant categoriel, son utilisation parait plus appropriee pour favoriser la distinction de 
categories dans les donnees, comme c’est le cas generalement pour les earcons^'^. Ainsi, 
comme le rappellent Daude et Niguay [DN03], le processus de sonification necessite non 
seulement la mise en correspondance de la valeur des donnees avec les parametres de 
controle d’un algorithme de synthese sonore, mais aussi la mise en correspondance de la 
structure des donnees avec la structure de la mixture sonore ainsi creee. Par exemple, 
pour un ensemble de donnees georeferencees {e.g. la densite de population d’un cer¬ 
tain nombre de villes referencees par leur position sur une carte), ctiaque donnee pent 
etre representee par un son, grace I’une des mettiodes presentees section 4-L2, qni sera 
spatialise a I’azimut et a la distance correspondant a la reference spatiale. II y a bien, 
dans ce cas, correspondance de valeurs (cedes des donnees) et de structure (I’organisa- 
tion spatiale des donnees). Si une telle correspondance semble intuitive, utiliser I’azimut 
d’un son pour representer la valeur des donnees elles-memes Test probablement un peu 
moins. Ainsi, dans le contexte d’un systeme de representation d’information, on pent 
deja faire une premiere distinction entre la representation de donnees spatiales et la 
representation de donnees non-spatiales. 

4.3.3.1 La representation de donnees spatiales 

II n’y a aucune raison a priori pour que I’usage des indices de la localisation au¬ 
ditive soit restreint a I’orientation de I’attention visuelle. La position spatiale d’un son 
communiquant, en soi, une information, elle pourrait tout a fait donner acces a une 
connaissance plus abstraite que la simple position d’une cible. En effet, la modalite au¬ 
ditive pourrait etre utilisee, plus generalement, comme support pour la representation 
de donnees analytiques sur des phenomenes a reference spatiale, done etre porteuse 
au meme titre qu’une carte d’informations geometriques (localisation) et semantiques 
(descriptions). Pourtant, d’apres Zatio et al. [ZPSD04], les systemes courants, rendant 
les bases de donnees georeferencees accessibles aux aveugles et malvoyants, s’appuient 
souvent sur la lecture automatique de references geographiques {e.g. les regions d’un 
pays) classees par ordre alphabetique, a partir desquelles sont consultables diverses ca¬ 
tegories de donnees {e.g. statistiques concernant la population, I’economie, etc.). Or, 
de telles presentations lineaires faillissent a rendre compte clairement du contexte geo- 
graphique dans lequel s’inscrivent ces donnees. En effet, la qualite de la representation 
spatiale tient une part importante dans I’utilisabilite d’un systeme d’information geo- 
graphique (SIG). En particulier, comme on pent aisement le constater sur la figure 4.7, 

tation auditive de donnees numeriques, comme c’est le cas pour la visualisation scientilique, dont elle 
semble, traditionnellement, I’equivalent sonore. 

'^’^les earcons associees a differentes categories [e.g. des menus) utilisent generalement des sons d’ins- 
trument differents {e.g. un son de piano pour le menu « repertoire » et un son de violon pour le menu 
« reglage »). 
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la perception holistique qu’offre la representation visnelle d’nne carte facilite grande- 
ment 1’apprehension de bases de donnees, sonvent trop denses ponr etre exploitables 
sons sa forme alphannmeriqne la plus rudimentaire. 



Fig. 4.7 - Representation visnelle de donnees georeferencees a I’aide de symboles 
(gauche), d’une plage de couleurs, dite « carte choroplethe » (centre), et d’un dia- 
gramme 3D (droite). Les cartes ont ete realisees avec le logiciel SCAP (Systeme de 
Cartographie Automatique pour la Pedagogie) [Jeq98]. 


La question est done de savoir si les indices de la localisation auditive peuvent etre 
employes a des fins similaires, malgre leurs limites inherentes, en termes d’acuite et 
surtout de « persistance ». En effet, comme le remarque Kramer [Kra94], I’aspect tran- 
sitoire des phenomenes sonores rend delicate la comparaison de plusieurs items par une 
presentation auditive simultanee. Meme si la separation spatiale des sources sonores 
pent, dans certaines conditions'^, favoriser le partage de I’attention, la reproduction 
en parallele, d’un trop grand nombre d’evenements auditifs conduit le plus sonvent a 
un paysage sonore cacophonique, soit une representation d’information potentiellement 
inintelligible. Ainsi, la consultation d’une base de donnees georeferencees, ne semble pou- 
voir se faire qu’au moyen d’un « balayage » {i.e. une presentation sequentielle d’items) 
plus on moins rapide, ce qui pose inevitablement certains problemes, en termes de me¬ 
morisation. 

Or, les capacites encyclopediques de la machine ayant depasse depuis longtemps les 
capacites perceptives et cognitives de I’utilisateur, il arrive sonvent que celui-ci ne puisse 
avoir acces a un instant donne qu’a une partie d’un vaste ensemble. Dans ce cas, quelle 
que soit la modalite en sortie (visnelle on auditive), I’espace doit etre explore an moyen 
d’une mediation technique, et I’information doit etre acquise an gre de I’experience. 
Plusieurs regies ont alors ete enoncees pour la « bonne » conception d’environnements 
de navigation (visnelle, en 1’occurrence), dont celles de Shneiderman [Shn96], « overview 

■^^Comme nous I’avons mentionne a la section 2.3.2, il semblerait, d’apres Best et al. [BGISC06], 
que la separation spatiale facilite I’ecoute selective puisqu’elle permet I’exclusion d’une source sonore 
au profit d’une autre, mais que, pour les memes raisons, un ecart angulaire trop grand degrade les 
capacites d’attention partagee. Or, la comparaison de sources concurrentes est typiquement une tache 
d’attention partagee. 
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first, zoom and filter, then details-on-demand » , on cedes de Lamping et al. [LRP95], 
« focns+context », qni ont donne naissance a nne grande variete de techniqnes de visna- 
lisation {e.g. fish-eye, arbre hyperboliqne, etc.). Ces denx mantras de la visnalisation 
d’informations qne nons anrons I’occasion d’examiner nn pen pins en profondenr an 
chapitre snivant, ont cela en commnn de recommander la representation d’nn apergu 
(« overview » on « context ») de I’ensemble des donnees. C’est pins precisement snr ce 
point qne la modalite anditive semble etre penalisee par rapport a la modalite visnelle. 
En effet, tandis qne les denx modalites se montrent assez complementaires ponr la re¬ 
presentation dn detail^^ (« zoom » on « focns »), la modalite anditive ne semble pas 
appropriee ponr la creation d’nn apergu, etant donne sa relative incapacity a representer 
simnltanement plnsienrs items a des fins de comparaison et de perception « directe » 
de tendances generates. 

Cela n’a pas empeche Zaho et al. [ZPSD04] d’evalner 1’applicability dn principe 
« overview first, zoom and filter, then details-on-demand » de Shneiderman [Shn96], a 
la modality anditive. Le contexte applicatif de lenr ytnde est la consnltation de donnyes 
simnlyes (cinq valenrs possibles), concernant les 51 Etats des USA. A chaqne Etat est 
done attribnye nne valenr, a laqnelle correspond nne note d’instrnment a corde (Do4 
-minimnm-, Mi4, Sol4, Do5 on Mi5 -maximnm-), d’nne dnrye de 200 ms. Zaho et al. 
observent ainsi les performances d’nne dizaine de snjets ponr la mymorisation d’nne 
distribntion de donnyes gyoryfyrencyes (nn exemple de pattern de distribntion est donny 
Fignre 4.8.a), tont en comparant denx modes de reprysentation de I’information : 



(a) (b) (c) 


Fig. 4.8 - Sonification de donnyes gyoryfyrencyes [ZPSD04] : exemple de pattern de 
distribntion des donnyes (a), ordre de balayage de la carte (b), et carte choroplethe 
spatiale (c). 


- (Tableau augmente) L’ordre de balayage, ponr I’exploration des donnyes, est 
imposy. Comme I’indiqne la fignre 4.8.b, I’Etat snivant I’Etat le pins an snd d’nne 
colonne est I’Etat le pins an nord de la colonne adjacente a Lest. L’ntilisatenr 
pent alors, avec les tonches hant/bas dn clavier, parconrir la trajectoire dans les 
denx sens. Chaqne fois qn’il appnie snr la barre d’espace, I’ntilisatenr entend nne 

fagon un peu caricaturale, disons que la perception visuelle est spatialement tres precise, mais 
relativement lente pour la recherche d’items et restreinte au champ de vision, tandis que Toui'e est 
spatialement peu precise, mais rapide et omnidirectionnelle. 
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voix enongant le nom de I’Etat suivi d’une note indiquant la valeur de la donnee 
correspondante. Les items auditifs ne sont pas spatialises. 

- (Carte choroplethe spatiale) L’utilisateur pent non seulement se deplacer le 
long de la trajectoire predefinie avec les touches haut/bas, mais il pent aussi se 
rendre directement a I’Etat immediatement a droite on a gauche avec les touches 
gauche/droite du clavier. Cette fois-ci, les items auditifs (la parole et la note de 
I’instrument) sont spatialises dans le plan horizontal, a I’aide d’un jeu de HRTF 
non-individualise, de sorte a creer une carte auditive virtuelle en forme de demi- 
cylindre entourant I’auditeur, comme il est indique Figure 4.8.C. L’acuite de loca¬ 
lisation dans le plan vertical etant jugee insuffisante, I’elevation est indiquee an 
moyen de la hauteur tonale (note de piano de 100 ms, du DoS an Do6). Lorsque 
Tutilisateur consulte les donnees georeferencees en pressant la barre d’espace, il 
entend done 3 sons : la voix enongant le nom de I’Etat, la note correspondant a 
la valeur de la donnee et la note correspondant a I’elevation. 

Pour memoriser le pattern de distribution geographique des donnees, les participants 
de I’experience se voyaient tout d’abord presente un apergu de I’ensemble des donnees 
georeferencees (balayage a une certaine vitesse), puis I’exploraient eux-memes selon les 
capacites d’interaction offertes par le mode de representation de I’information qui leur 
etait assigne (Tableau on Carte). Les resultats de revaluation indiquent, tout d’abord, 
que la presentation d’un apergu, prealablement a I’exploration, facilite la memorisation 
en guidant leur exploration ulterieure, quel que soit le mode de representation. En outre, 
la carte offrant une plus grande flexibilite pour cette exploration (deplacements dans 
les deux directions du plan, par opposition aux deplacements lineaires du tableau), 
elle permet une meilleure memorisation de I’association des donnees avec une position 
dans I’espace. Il n’est pas possible aux auteurs de determiner quelle est la contribution 
de la spatialisation sonore a cette amelioration. Pour cela, il aurait fallu comparer, 
par exemple, les performances obtenues pour la synthese binaurale, avec celles que 
I’on aurait obtenu pour une simple stereophonie. Cependant, cela ne remet pas en 
cause le fait qu’une carte choroplethe spatiale est le mode de representation sonore le 
plus utilisable, et qu’un tel dispositif ne pourrait sans doute pas I’etre en I’absence des 
indices de la localisation auditive, quelle que soit la qualite technique des algorithmes de 
spatialisation sonore. Meme si la tache aurait ete accomplie bien plus efficacement par 
I’emploi de la modalite visuelle, cette experience montre bien que la modalite auditive 
pent etre utilisee comme support pour la representation de donnees analytiques sur 
des phenomenes a reference spatiale, et etre porteuse, an meme titre qu’une carte, 
d’informations geometriques (localisation) et semantiques (descriptions). 

4.3.3.2 La representation de donnees non spatiales 

Dynamic Soundscape De fagon plus abstraite, la position spatiale d’un son pent etre 
consideree comme un attribut perceptif parmi tant d’autres. Ainsi, comme le timbre, la 
hauteur on le rythme, elle pent etre determinee, selon une certaine fonction de mapping, 
par les valeurs que prend une variable. Par exemple, Kobayashi et Schmandt [KS97] font 
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correspondre I’azimut d’un son avec la progression temporelle de sa lecture^®. Ils ont 
ainsi cree un systeme de browsing de fichiers audio, permettant I’ecoute simultanee 
de differents passages d’un texte. Lorsque la lecture du texte est lancee, un premier 
« locuteur virtuel » tourne autour de I’auditeur a vitesse constante. A un azimut donne 
est done associe un passage du texte. L’auditeur pent alors pointer dans une direction 
pour qu’un second « locuteur virtuel » soit cree et relise le texte a partir du passage 
designe, en tournant lui aussi a mesure que la lecture progresse. Comme il est illustre sur 
la figure 4.9, plusieurs locuteurs sont ainsi audibles simultanement : celui correspondant 
a I’instant de lecture courant (locuteur original) et celui correspondant au rappel de 
I’extrait desire (nouveau locuteur). 


Nouveau Locuteur 



Fig. 4.9 - Illustration du systeme Dynamic Soundscape de Kobayashi et Schmandt 
(extrait de [KS97]). Plusieurs locuteurs peuvent etre entendus simultanement : celui 
correspondant a I’instant de lecture courant et celui correspondant au rappel d’un extrait 
diffuse precedemment a une position donnee. 


En associant un evenement sonore avec une position spatiale, les auteurs esperent 
ainsi compenser les limites inherentes a la modalite auditive, en terme de memorisa¬ 
tion. En effet, par analogie avec le moyen mnemotechnique dit des lieux de memoire, la 
memorisation d’un evenement sonore est en theorie rendue plus aisee grace a la memori¬ 
sation conjointe de la position spatiale a laquelle est associe cet evenement. Cependant, 
en pratique, le systeme pose un certain nombre de problemes en termes d’usage. Suite a 
une premiere etude d' utilisabilite du dispositif, il s’est avere que les utilisateurs aient eu 
le plus grand mal a se rememorer la position d’un evenement sonore dont le rappel se 
revelait etre relativement imprecis. En outre, malgre la separation spatiale, les partici¬ 
pants ont montre quelques difficultes a ecouter de fagon selective les differents locuteurs 
audibles simultanement. L'utilisabilite du dispositif n’a pu etre amelioree que par un 
certain nombre de modifications assez drastiques. Notamment, la vitesse de rotation a 
ete ralentie a 1,2 ° /s et un focus {i.e. amplification de 8 dB) a du etre applique dans 
la direction indiquee par I’utilisateur. De plus, pour pallier le manque de precision lors 
du rappel, il s’est revele necessaire de corriger la position pour qu’elle corresponde plus 

exemple, lorsque la lecture du son progresse de 1 seconde, Tazimut augmente de 1 °. 
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precisement au debut d’un evenement sonore. 

Sans alter plus loin dans les details des modifications qui ont du etre apportees pour 
ameliorer le dispositif, on constate simplement que les indices de localisation auditive 
sont difficilement utilisables seuls, comme parametres pour la sonification de donnees. 
Si Ton en doutait encore, la modalite sonore ne possede pas les memes capacites que la 
modalite visuelle pour la representation spatiale de donnees abstraites. Typiquement, 
on ne pent utiliser la dimension spatiale du son, aussi simplement que I’on utilise I’es- 
pace pour representer par exemple revolution d’un parametre au cours du temps a I’aide 
d’un graptiique. Cela semble etre une consequence directe du faible pouvoir de resolution 
spatiale du systeme auditif. Cependant nous avons aussi eu I’occasion de mentionner 
{section 2.3.1) que I’audition n’accordait pas la priorite absolue a I’indice spatial, etant 
donne son manque de « fiabilite », et que d’autres indices {e.g. hauteur, duree, etc.) 
participaient a la determination de la position des sons qui seront finalement crees par 
I’organisation perceptive. Kobayashi et Schmandt [KS97] ont d’ailleurs pu remarquer 
que la separation spatiale ne suffisait pas toujours a garantir une focalisation selective 
de 1’attention. 

Tout cela a necessairement des consequences en termes de memorisation. Comme 
le resument Kobayashi et Schmandt, il semblerait qu’en pratique un individu ne puisse 
memoriser efficacement^® que des directions relativement « grossieres » dans I’un des 
quatre quadrants qui divisent la circonference du cercle {e.g. « la source est a I’avant 
vers la droite »). Les conditions, dans lesquelles une memorisation plus precise a pu 
etre observee {e.g. « la source est a 40 ° de I’axe median »), sont un peu particulieres. 
Par exemple, les differentes experiences menees par Loomis, Klatzky et leurs collegues 
[LLKG02] [LKPG98] [KLLG03], ont ete realisees dans le cadre d’une perception natu- 
relle consideree comme ideale, si on la compare a la situation de perception offerte par 
un dispositif dont les HRTF ne sont pas individualisees, pour lequel la localisation dy- 
namique n’est pas possible, et qui diffuse plusieurs sons complexes simultanement. Or, 
c’est bien cette derniere qui constitue la veritable situation de perception ecologique, 
dans le cadre des applications multimedia actuelles. Nous nous devons done de prendre 
en compte, non seulement les compromis qui doivent etre faits en termes de qualite 
technique, mais aussi des interactions inter- et intra-modales qui peuvent degrader les 
capacites perceptives et cognitives de I’individu {e.g. delocalisation des percepts, flou de 
localisation, etc.). 

Diary In The Sky Pourtant, Walker et al. [WBMOl] ont bien reussi, semble-t-il, 
a concevoir un dispositif utilisable, encodant la semantique des messages de I’interface 
dans des flux audio spatialises. Pour cela, ils ont mis en correspondance I’heure des 
evenements d’un agenda avec douze positions angulaires dans le plan horizontal, creant 
ainsi un cadran horaire de sources sonores. Comme I’illustre la figure 4.10.b, I’interface 
sonore assigne les evenements de I’agenda a des sources sonores (synthese vocale) spa- 

'^^Sans que soit pris necessairement le temps d’une stabilisation en memoire 
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tialisees autour de I’auditeur dans le plan horizontal, an moyen d’nn jeu de HRTF non 
individualisees. V utilisabilite du dispositif a ete evalnee en prenant pour condition de 
controle I’usage de I’interface visuelle que Ton trouve habituellement sur dispositif mo¬ 
bile (Figure 4.10.a). Les performances des participants a se rememorer les evenements 
de la journee (quatre an total) ont done pu etre comparees pour les deux conditions 
suivantes : 

- (Condition visuelle) Les participants consultent I’agenda pendant une duree 
de 8 secondes. Les evenements etant separes les uns des autres par un espace 
proportionnel a la duree qui les separe, ils ne peuvent pas tons etre representes 
simultanement a I’ecran. L’utilisation de la barre de defilement verticale est done 
indispensable. 

(Condition auditive) Les evenements d’une duree maximum de 1,5 secondes, 
sont Jones les uns apres les autres, toutes les 2 secondes. Les participants, n’inter- 
agissent done pas avec le systeme. 



13:00 


(a) 


(b) 


Fig. 4.10 - Comparaison de deux interfaces pour I’implementation d’un agenda sur 
dispositif mobile, (a) Interface visuelle du DateBook d’un PDA (Palm, Inc.), presentant 
les evenements verticalement, sur un ecran de 6x6 cm. (b) Interface sonore, assignant 
les evenements du DateBook, a des sources sonores (synthese vocale) spatialisees autour 
de I’auditeur dans le plan horizontal. 

Ainsi, les resultats de I’experience indiquent que le « rappel relatif » {i.e. reponse 
a la question : « Est-ce que I’evenement A a lieu avant/apres I’evenement B? ») est 
meilleur pour les participants ayant utilise le dispositif sonore. En revanche, le « rappel 
absolu » {i.e. reponse a la question : « A quelle heure a lieu I’evenement A? » on « Quel 
evenement a lieu a I’heure X? ») est meilleur pour le dispositif visuel. 


II semble, qu’ici, il ait ete fait un usage plus pertinent de la spatialisation sonore 
conduisant a un dispositif plus utilisable que celui propose precedemment. Tout d’abord, 
la tache est beaucoup plus simple, puisque les sources ne sont pas en mouvement et ne 
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sont pas presentees de fagon concurrente. En outre, cette fois-ci la position spatiale des 
sons semble veritablement avoir participe a la memorisation des evenements, si Ton en 
croit les entretiens qui ont ete menes apres la realisation de la tache. Ainsi, I’emploi 
d’une metaphore (celle du cadran horaire), pourrait avoir facilite I’interpretation des 
informations qui ont ete communiquees par le biais des indices de la localisation audi¬ 
tive {i.e. I’ordonnancement des evenements dans une journee). Maltieureusement, il est 
difficile, encore une fois, de connaitre la contribution reelle des indices de la localisation 
auditive, puisque I’effet du rendu sonore n’a pas ete pris en compte. En outre, le fait que 
la tache de « rappel absolu » ait ete accomplie avec une plus grande d’efficacite grace a 
la modalite visuelle, pourrait etre I’expression des faiblesses de I’audition pour la per¬ 
ception holistique. Eire, cela pourrait tout simplement signifier que ce n’est pas tant la 
position des sources qui a ete memorisee, que leur ordonnancement. En d’autres termes, 
il aurait vraiment ete interessant, que cette experience evalue aussi les performances 
obtenues en I’absence de separation spatiale des sources sonores. 

4.3.3.3 La spatialisation sonore comme representation analogique 

Le premier enseignement que I’on pent tirer des deux exemples precedents est que 
la spatialisation sonore ne semble pas tres adaptee pour la representation de donnees 
non-spatiales. D’une part, on rencontre rarement de tels cas d’usage dans la litterature, 
ce qui est deja, en soi, relativement symptomatique. D’autre part, il semblerait que cela 
necessite, soit un dispositif complexe pour « optimiser » I’acuite de localisation {e.g. cap¬ 
ture des mouvements de la tete pour la localisation dynamique on la mesure de HRTF 
pour I’individualisation), soit de restreindre la complexite de la tache en facilitant les 
sous-taches perceptives {e.g. faciliter I’attention selective en faisant intervenir d’autres 
attributs perceptifs on eviter les situations de concurrence) et cognitives {e.g. limiter la 
quantite d’informations transmises par la position spatiale des sources sonores). Sinon, 
I’emploi d’une metaphore spatiale, telle que le cadran d’horloge pour un agenda elec- 
tronique, semble avoir un effet benefique sur V utilisabilite des indices de la localisation 
auditive, comme il en est un pour I’usage des sons dans une interface en general. Meme 
si cela ne resout pas le probleme inherent a I’acuite et a la persistance, cela resout 
deja en partie celui de la comprehension des idiosyncrasies du systeme. Toujours est-il 
que les capacites representationnelles de la spatialisation sonore semblent assez limitees 
puisqu’elle ne permet pas de creer aisement des signes arbitraires, trop tributaires de la 
« resolution » des attributs perceptifs utilises. Par exemple, les earcons ne seraient pas 
utilisables, si le send de discrimination frequentielle de deux hauteurs tonales successives 
etait trop grand pour creer suffisamment de patterns melodiques reconnaissables. 

Plutot que d’utiliser un formalisme emprunte a la linguistique (proprietes seman- 
tiques, syntaxiques et lexicales des Auditory Display), comme I’a propose Blattner 
[BPG94], la dualite « analogique vs. symbolique » proposee par Kramer [Kra94], semble 
plus adaptee pour decrire les capacites expressives de la spatialisation sonore. En effet, 
les techniques de representations sonores peuvent etre placees le long d’un continuum, 
de la signification la plus directe a la plus connotative que Nesbit [NesOl] caracterise de 
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fagon un peu caricaturale par le fait que la premiere necessite des processus cognitifs 
plus automatiques (encodage direct des attributs des donnees vers les capacites senso- 
rielles) et la seconde des processus cognitifs plus controles (necessitant plus d’effort pour 
comprendre et interpreter un encodage plus abstrait). Plus precisement, s’inspirant de 
Sloman [Slo75], qui distingue les representations analogique et fregeenne (d’apres Got¬ 
tlob Frege), Kramer definit les representations analogique et symbolique comme suit : 

- (Representation analogique) Les relations qui gouvernent I’organisation de 
la representation sonore sont structurellement liomomorpties aux relations qui 
gouvernent I’organisation des choses representees. En d’autres termes, il existe le 
meme type de structure et les memes operations [e.g. un mouvement dans une 
direction), mais la representation est une simplification de la realite. Par exemple, 
un compteur Geiger offre une representation sonore analogique puisque la vitesse 
des dies est rigoureusement proportionnelle a I’intensite des radiations. De meme, 
les proprietes spatiales d’une carte 2D constituent I’un des exemples communs de 
representation visuelle analogique. 

- (Representation symbolique on fregeenne) La structure de la representation 
ne correspond pas a la structure de la chose representee, mais a la structure de la 
procedure a laquelle la chose est identifiee ou grace a laquelle elle est creee. Une 
alarme est un exemple de representation sonore symbolique. II n’y a pas besoin 
de relation directe entre la structure de I’evenement represente et la structure de 
I’alarme. Le langage, les signes du code de la route ou, encore, les logos d’une 
marque, sont d’autres exemples de representation symbolique. 

ANALOGIQUE SYMBOLIQUE 



Fig. 4.11 - Gontinuum analogique/symbolique propose par Kramer [Kra94] 


Si Ton place les differentes techniques rencontrees dans la litterature, le long d’un tel 
continuum (Figure 4.11), il vient naturellement que les earcons, par leur caractere arbi- 
traire, se trouvent plutot du cote symbolique. Les auditory icons, quant a elles, illustrent 
bien le probleme pose par I’utilisation du terme « symbolique ». En effet, elles ne sont 
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pas des symboles mais bien des icones, dans la mesure on elles ne creent pas des signes 
arbitraires, mais motives. Pourtant, elles sont bien fregeenne, puisque qn’il n’y a pas de 
relation directe entre la structure de I’evenement represente et la structure de la repre¬ 
sentation sonore. Elles se trouve done, comme les earcons, plutot du cote symbolique^'^, 
bien que leur iconicite les rapproche un pen plus de la representation analogique. A I’ex- 
treme inverse, on trouve V audification, qui est une representation purement analogique, 
puisqu’elle consiste litteralement a « ecouter » un flux de donnee. La representation 
et la chose representee ont alors exactement la meme structure. Remarquons, que le 
terme « analogie » n’a pas la meme signification, ici, que pour Demarey et Plenacoste 
[DPOlb] on meme Gaver [Gav95], qui I’utilisent plutot an sens d’une « metaphore^® ». 
Enfin, comme I’avons deja mentionne le mapping de parametres s’etend tres largement 
entre les deux extremes, puisqu’il pent donner lieu, aussi bien a des sortes auditory 
icons parametrees qu’a une sorte d'audification. 


S’agissant de la spatialisation sonore, on pent remarquer sur la figure 4.11, que I’uti- 
lisation des indices de la localisation auditive dans une interface, donne lieu, d’apres 
Kramer [Kra94], a des representations plutot analogiques. Ainsi, la spatialisation so¬ 
nore semble plus a meme de representer la structure on I’organisation des donnees, {e.g. 
la representation de donnees a reference spatiale), que de representer les donnees elles- 
memes {e.g. representation de donnees non-spatiales), qui constituent un cas limite, en 
terme d’usage. Or, la problematique des capacites representationnelles des indices de 
la localisation auditive depasse la simple opposition entre les donnees spatiales et non 
spatiales. Le fait de representer des donnees georeferencees, ne resout pas les problemes 
d’acuite spatiale inherents a la modalite auditive, ni ceux lies a son manque de per- 
sistance, et encore moins les problemes de memorisation qui s’ensuivent. Finalement, 
I’utilisation la plus evidemment pertinente que nous ayons presentee jusqu’a present est 
celle de Begault [Beg93] pour son systeme d’alarme anti-collision {TCAS, pour Traffic, 
Alert and Collision Avoidance System). En effet, nous avons eu I’occasion de remar¬ 
quer, lorsque nous avons etudie I’habilite spatiale du systeme auditif an chapitre 2, que 
I’audition etait la modalite ideale pour la « conscience de situation » (« situational 

awareness »), dont I’une des fonctions principales est d’orienter la prise d’information. 
Or, pour jouer un tel role, Begault a observe qu’il n’etait pas indispensable de disposer 
d’un fort pouvoir de resolution spatiale, arguant que I’acuite offerte par les indices de 
localisation etait suffisante pour donner rapidement des indications generates d’orien- 
tation qui amorcent une recherche visuelle plus precise. G’est, semble-t-il, la situation 
d’usage la plus ecologique, a tout point de vue, utilisant chaque modalite pour ce qu’elle 

'‘^Elles sont symboliques, par amalgame, mais le terme devrait etre prohibe. II est utilise cependant, 
pour des raisons de simplicite. 

'‘®Encore une fois, on pent constater un probleme de terminologie, qui est recurent dans la litterature 
sur les Auditory Display. II semble que cela soit assez symptomatique du melange des disciplines, qui 
conduit parfois a des amalgames de concepts qui ne peuvent etre enonces avec precision. L’absence de 
consensus pour la definition des termes en est parfois responsable. Nous avons, necessairement rencontre 
les memes diflicultes et notre tentative d’aborder la problematique de V utilisabilite de la spatialisation 
sonore par la signification, souffre sans doute de certaines imprecisions, malgre notre vigilance. 
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a de mieux a apporter. 


4.4 Conclusion 

En resume, nous avons mis en evidence les resultats suivants : 

- Le mapping de parametres tire profit des proprietes lexicales des messages sonores, 
les earcons de leurs proprietes syntaxiques et les auditory icons de leurs proprietes 
semantiques. 

- L’liypottiese d’une perception ecologique (i.e. perception directe des affordances) 
pent etre invalidee par un usage hors contexte de sons de notre quotidien. 

- La sensation de presence ou dlimmersion n’est pas une qualite intrinseque d’un 
dispositif de rendu, mais est conditionnee par un certain nombre de facteurs psy- 
chologiques, done propres a I’individu. 

- Au cinema, et plus encore dans un jeu, on se borne souvent a regler la question 
du point d’ecoute en postulant une correspondance realiste entre la distance au 
sujet filme et la distance au son emis par ce sujet. 

- L’experience acoustique virtuelle, particulierement si elle met en oeuvre les techno¬ 
logies de spatialisation sonore, semble plus facile a realiser et souvent plus convain- 
cante que I’experience visuelle correspondante. 

- L’elevation n’est pas un degre de liberte pertinent pour qui vent simplement ti- 
rer profit des capacites organisationnelles de I’espace sonore, particulierement si 
I’image spatiale est degradee par le dispositif de rendu. 

- L’une des grandes forces de la spatialisation sonore est de favoriser la discrimina¬ 
tion et la reconnaissance de multiples sources concurrentes, done d’augmenter la 
densite d’information que I’on pent communiquer simultanement. 

- L’une des qualites qui rend I’audition tres utile pour les systemes d’alarme est sa 
capacite a orienter I’attention visuelle. 

- Lorsque I’on fait correspondre la position d’un signal sonore avec celle d’une cible 
visuelle, les performances lors de la recherche visuelle de la cible s’en trouvent 
accrues. 

- Si Ton suppose que le son ne donne que des indications generates d’orientation 
pour amorcer une recherche visuelle plus precise, il n’est pas indispensable que la 
localisation soit tres precise. 

- L’aspect transitoire des phenomenes sonores rend delicate la comparaison de plu- 
sieurs items par une presentation auditive simultanee (probleme de persistance). 

- En pratique, un individu ne pent memoriser efficacement^® que des directions 
tres approximatives (sans commune mesure avec les performances observees en 
situation reelle). 

- La dualite « analogique vs. fregeen » semble plus adaptee que le formalisme em- 
prunte a la linguistique (proprietes semantiques, syntaxiques et lexicales) pour 

"‘^Sans que soit pris necessairement le temps d’une stabilisation en memoire 
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decrire les capacites representationnelles de la spatialisation sonore. 

- L’utilisation des indices de la localisation auditive dans une interface, donne lieu 
a des representations plutot analogiques. 

- La spatialisation sonore est plus a meme de representer la structure ou I’orga- 
nisation des donnees, {e.g. la representation de donnees geo-referencees), que de 
representer les donnees elles-memes {e.g. representation de donnees non-spatiales). 

Nous en avons alors deduit les conclusions suivantes : 

- II parait naturel au premier abord, de faire du couple camera/microphone, comme 
du couple oeil/oreille un ensemble solidaire, done de faire co'incider le point d’ecoute 
et le point de vue. 

- II est necessaire, pour sortir la spatialisation sonore de Lorniere naturaliste dans 
laquelle elle se trouve, de se poser la question de son utilite, done de la fagon dont 
on pent fonctionnaliser I’espace sonore. 

- La modalite auditive peut etre utilisee comme support pour la representation de 
donnees analytiques sur des phenomenes a reference spatiale, et etre porteuse, 
au meme titre qu’une carte, d’informations geometriques (localisation) et seman- 
tiques (descriptions). 

- La spatialisation sonore ne semble pas tres adaptee pour la representation de don¬ 
nees non-spatiales. Plus generalement, ses capacites representationnelles limitees 
ne permettent pas de creer aisement des signes arbitraires, trop tributaires de la 
« resolution » des attributs perceptifs utilises. 


Premier bilan 

Nous avons tente jusqu’ici, de croiser les points de vue d’un certain nombre de disci¬ 
plines pour faire le point sur ce que Ton pouvait attendre de la spatialisation sonore dans 
les situations d’usage couramment rencontrees (en particulier, dans les jeux). Ainsi, dans 
un premier temps, nous avons essaye de determiner quel etait le role de I’espace dans la 
perception auditive. Nous avons pu constater, d’une part, le faible pouvoir de resolution 
spatial du systeme auditif en comparaison du systeme visuel et, d’autre part, le manque 
de fiabilite des indices de la localisation auditive pour I’organisation perceptive {Section 
2.2). Nous en avons alors conclu que les differences spatiales jouaient plutot un role de 
facilitation amplifiant la segregation fondee sur d’autres facteurs {Section 2.3). Nous 
avons d’ailleurs pu remarquer dans ce chapitre {section 4-3.1 et 4-3.2), qu’abstraction 
faite de I’art (esthetique) ou de la realite virtuelle (realisme, immersion), la spatiali¬ 
sation sonore etait essentiellement mise a profit dans une interface pour sa capacite a 
ameliorer la discrimination et la reconnaissance de multiples sources concurrentes (ame- 
liorer I’intelligibilite d’une source en presence de bruit de fond) ou a orienter 1’attention 
visuelle (accelerer la capture visuelle d’une cible). 


Pourtant nous avons note quelque habilete du systeme auditif pour I’acquisition 
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de connaissance spatiale. Meme si les capacites d’un individu a memoriser la position 
d’une on plusieurs source(s) sonore(s) semblent assez mal connues, nous avons tout 
de meme pu presenter quelques etudes montrant que notre cerveau etait capable de 
construire et d’actualiser une representation mentale de I’environnement suite a une 
exposition exclusivement auditive. Cependant, comme I’a montre I’etude de Kobayastii 
et Sctimandt [KS97] presentee section 4-d-3.2, il semblerait qu’un auditeur, dans les 
situations de perceptions degradees typiques des applications grand public [i.e. HRTF 
non-individualisees et localisation statique), ne puisse memoriser efficacement que des 
directions relativement « grossieres » {e.g. « la source est a I’avant vers la droite »). Meme 
si I’emploi d’une metaphore spatiale semble avoir un effet benefique sur Vutilisabilite des 
indices de localisation auditive pour la representation de donnees non-spatiales, nous 
en avons tout de meme conclu que les capacites representationnelles de la spatialisation 
sonore etaient assez limitees . Typiquement, elle ne permet pas de creer aisement des 
signes arbitrages, trop tributaires de la « resolution » des attributs perceptifs utili¬ 
ses. En conclusion, nous avons suggere que la spatialisation sonore avait un caractere 
fondamentalement analogique , done qu’elle etait plus a meme de representer la structure 
des donnees, par exemple Porganisation spatiale de donnees georeferencees . 

D’ailleurs, nous avons en I’occasion de montrer section 4-3.3.1 que la modalite au¬ 
ditive pouvait etre porteuse, a elle seule, d’informations geometriques (localisation) et 
semantiques (descriptions), an meme titre qu’une carte. Cependant, la modalite auditive 
est grandement penalisee par rapport a la vision pour la representation cartographique, 
si I’on considere la relative inefficacite du systeme auditif pour I’ecoute partagee et la 
perception holistique de « patterns spatiaux » . D’ailleurs, comme I’a montre I’etude de 
Zaho et al. [ZPSD04], pour une representation exclusivement sonore, la memorisation 
de la distribution spatiale des donnees georeferencees ne semble pouvoir se faire qu’au 
moyen d’un « balayage », soit une presentation sequentielle d’items. En outre, nous 
avons en I’occasion de souligner, dans le cas d’un emploi conjoint des modalites audi¬ 
tive et visuelle, qu’il n’etait pas indispensable de disposer d’un fort pouvoir de resolution 
spatiale, arguant que I’acuite offerte par les indices de localisation etait suffisante pour 
donner rapidement des indications generates d’orientation qui amorcent une recherche 
visuelle plus precise . 

Ainsi, en reference a la distinction faite section 3.3, nous jugeons qu’il 
est plus pertinent d’approfondir I’usage de la spatialisation sonore dans 
le cadre d’interactions integrees (description dynamique des systemes 
semiotiques), soit une signification qui n’est pas necessairement donnee, 
mais se construit avec I’experience, dans le temps et I’espace. 

Nous allons done restreindre le cadre de nos travaux de recherche a la conception 
d’espaces sonores navigables, donnant acces, non seulement, a une connaissance de 
I’espace lui-meme (« On ? »), mais aussi aux informations dont il est le support structurel 
(« Quoi ? »). Une telle problematique est relativement pen etudiee dans la litterature, 
puisque la vision est consideree comme la modalite la plus performante pour 1’acqui¬ 
sition de connaissances spatiales. Pourtant, nous sommes convaincus que la modalite 
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sonore peut pallier les limitations inherentes a la modalite visuelle et enrichir autant 
I’experience sensible que la connaissance qu’il est possible d’acquerir en explorant un 
environnement virtuel. Cette problematique sera I’objet de la premiere partie de la re¬ 
vue bibliographique presentee au chapitre suivant. 

Cependant, notre reflexion ne se limitera pas aux facteurs tiumains, puisqu’il nous 
faut aussi prendre en consideration la perspective du concepteur de logiciels, qui ne 
peut etre dissociee de la perspective utilisateur, lorsque Ton desire aborder le probleme 
de Vutilisabilite d’un dispositif. II ne suffit pas de proposer des solutions a un probleme 
d’usage, il faut aussi proposer des solutions techniques pour rendre cet usage possible. 
En effet, la navigation dans un environnement sonore requiert avant tout que Ton soit 
capable de creer un paysage sonore de synthese compose potentiellement d’un tres grand 
nombre de sources. La question de la gestion des ressources du systeme est done particu- 
lierement critique, surtout pour les environnements virtuels de grande ampleur utilises 
comme support pour le georeferencement, comme ceux que Ton rencontre dans des 
applications telles que Google Earth ou, par extension, dans les jeux de strategie temps- 
reel. Cette problematique sera I’objet de la seconde partie de la revue bibliographique 
presentee au chapitre suivant. 
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Chapitre 5 

Interface pour la navigation dans 
les environnements sonores 3D 


Ce chapitre presente, tout d’abord, les rares travaux ayant eu pour objet I’etude des 
capacites d’un individu a s’orienter et a se deplacer dans I’espace, grace a I’assistance 
d’un environnement virtuel audio. Nous y presentons ensuite le concept d'image mentale 
qu’un individu se construit de son environnement (grace a I’experience visuelle), lui per- 
mettant d’elaborer des strategies qui guident ses deplacements (on way finding). Apres 
avoir presente les facteurs qui conditionnent, pour le citadin, la lisibilite du paysage 
(visuel) urbain, nous posons la question de la lisibilite du paysage sonore. Enfin, nous 
abordons le cas de la navigation dans un environnement virtuel non-immersif dont la 
metaphore de la camera est I’element structurant. Nous presentons ainsi les differentes 
perspectives que peuvent offrir respectivement le point de vue et le point d’eeoute. S’ap- 
puyant sur le concept d’interface zoomable et d’interface foeus+eontexte, nous achevons 
alors la premiere section consacree a la perspeetive utilisateur en discutant de I’interet 
d’un contrepoint audiovisuel, pour une representation « optimisee » d’informations a 
reference spatiale. 

La deuxieme section, quant a elle, est consacree a la perspective du concepteur de 
logiciels. Elle presente tout d’abord les principaux nceuds introduits par la seconde 
edition de I’AudioBIFS de la norme MPEG-4 (dite « Advanced AudioBIFS ») pour 
V auralisation des environnements virtuels. Nous presentons ensuite les « effets environ- 
nementaux » des versions 4 et superieure de I’API EAX, qui fond defaut, pour certains, 
a la norme MPEG-4. Nous definissons alors les approches « centree sur I’objet » et 
« centree sur le champ sonore », implementees respectivement par les nceuds Directive- 
Sound et Surrounding Sound de la version 3 de I’AudioBIFS. Nous detaillons, comme 
il se doit, I’interface de programmation du noeud Surrounding Sound et les transforma¬ 
tions qu’il est possible d’appliquer a de tels flux audio multicanal pour qu’ils soient 
utilisables dans une application interactive. Nous presentons, en outre, les techniques 
de gestion du niveau de detail sonore indispensables an rendu d’une scene contenant 
un grand nombre de sources sonores. Prenant I’exemple de la representation visuelle de 
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donnees georeferencees dans une interface zoomable, nous montrons comment les res- 
sources perceptives et cognitives de I’utilisateur peuvent, elles aussi, etre optimisees. 
Nous achevons enfin cette etude bibliographique en presentant un cadre de reference 
pour la conception des systemes de representation visuelle et sonore d’information, sur 
lequel il serait bon de s’appuyer pour definir 1’architecture d’une interface de navigation 
dans un environnement sonore 3D. 


5.1 La localisation auditive pour I’acquisition de connais- 
sances spatiales 

Pen importe si I’environnement est une simulation du monde reel on non, nous nous 
devons de prendre en consideration le fait qu’un individu presente certaines habilites 
a la navigation dans un espace reel. Comme le souligne Darken et Peterson [DPOla], 
meme si rien ne justifie de copier aveuglement le monde reel, il nous est necessaire de 
connaitre, autant que nous le pouvons, la relation qu’entretient un individu avec I’espace 
physique si I’on vent comprendre comment concevoir des environnements virtuels plus 
utilisables. Ainsi, apres avoir constate le pen de travaux relatifs a la conception et a 
revaluation des dispositifs sonores d’assistance a la navigation, c’est vers I’architecture 
(plus precisement la planification urbaine) et I’esthetique que nous devrons nous tourner 
pour apprendre comment I’espace pent faire sens pour un individu et le role qu’y joue 
la perception auditive. 

5.1.1 Le role des modalites visuelles et sonores pour la navigation 
dans un environnement virtuel 

5.1.1.1 Les indices de la localisation auditive pour la navigation 

Outre les travaux de Loomis, Klatzky et leurs collegues [LLKG02] [LKPG98] 
[KLLG03], dont I’objectif etait de mieux comprendre les capacites du systeme auditif 
pour la cognition spatiale, pen de chercheurs out etudie Vutilisabilite d’un dispositif 
sonore pour la navigation. La plupart d’entre eux, d’ailleurs, out ete congus pour 
aider les personnes souffrant de deficiences visuelles a s’orienter et a se deplacer dans 
leur environnement. Or, meme si I’usage de tels systemes est encore relativement 
anecdotique, il semble etre I’objet d’un interet croissant, avec le developpement et la 
democratisation des systemes de localisation geographique {e.g. le GPS, pour Global 
Positioning System), qui deviennent de plus en plus fiables et de plus en plus precis. 

Gomme le rappel Loomis et al. [LMGK05], les mal-voyants, ayant generalement 
appris (aupres de professionnels de I’orientation et de la mobilite) a suivre un trottoir 
en utilisant le bruit de la circulation, il leur suffit, le plus souvent, d’informations 
textuelles simples, telles que « continuer tout droit », « tourner a droite a la prochaine 
intersection », etc. Les systemes les plus courants se sont done contentes, jusqu’a pre¬ 
sent, de communiquer de telles instructions en braille, on a I’aide d’une synthese vocale. 
Gependant, que ce soit pour des non-voyants se deplagant dans la rue, on des voyants. 
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conduisant un vehicule, il semblerait que I’utilisation d’une representation spatiale soit 
preferable, en general, a I’utilisation du langage. D’ailleurs, nous avoirs eu roccasion 
de remarquer (section 2.4-2) que le langage, en tant que support pour I’acquisition de 
connaissance spatiale, etait moins approprie que les indices de la localisation auditive 
qui pouvaient produire « directement » des representations spatiales. 

Or, la navigation pent avoir lieu dans des espaces assez vastes et « ouverts » (e.g. 
un pare, une place), on des espaces aux « frontieres sonores » mal definies (e.g. un 
campus universitaire). II est done necessaire, de fagon generale, d’indiquer a I’utilisateur 
mal-voyant des informations de direction et de distance egocentrees, notamment, la 
position des points de navigation^ on des points de repere en dehors de la route. Par 
exemple, I’une des implementations du PGS (pour Personal Guidance System) de 
Loomis et al. [LMGK05], utilise la spatialisation sonore pour positionner virtuellement 
un locuteur, qui annonce 72 fois par minute a I’auditeur la distance qui le separe du 
prochain point de navigation. Le choix de ne pas utiliser les indices de distance d’une 
source sonore semble justifie, etant donne I’incapacite du systeme auditif a I’evaluer 
avec precision. Cependant, meme dans ces conditions, I’usage de la parole pour la 
conception de balises sonores pent se reveler problematique. Void, d’apres Walker et 
Lindsay [WL04], les raisons pour lesquelles la parole, en general, n’est pas utilisable 
pour une interface d’assistance a la navigation : 

- les sons de paroles sont plus difficiles a localise!, 

- la synthese vocale est souvent de mauvaise qualite, 

- la voix ne permet de diffuser qu’une faible quantite d’informations simultanement, 
en raison des capacites limitees de traitement cognitif de la parole, 

- il est difficile de suivre une conversation, en meme temps que I’on utilise I’interface, 

- les messages vocaux sont souvent longs (superieurs a 1 seconde), et sollicitent 1’at¬ 
tention de I’auditeur en permanence. Cette inefficience de la parole pent conduire 
un environnement d’ecoute surcharge, done fatiguant et eventuellement irritant 
pour I’utilisateur. 

Walker et Lindsay suggerent done d’utiliser des sons large bande, plus aisement 
localisables. En effet, d’une part, un auditeur beneficie des deux indices interauraux, 
a condition qu’un son contienne suffisamment d’energie en basses et hautes frequences 
(cf. « duplex theory », section 2.1.1) et, d’autre part, les composantes directionnelles 
des HRTF couvrent un intervalle de frequences relativement important (section 2.1.2). 
Cependant, le type de son utilise n’est pas aussi critique que la methode employee pour 
representer la distance d’un point de navigation cible. Si I’on n’indique pas explicitement 
la distance a la cible, comme on pent le faire avec la parole (e.g. si I’on utilise les indices 
« naturels » de la distance, tels que la variation exponentielle du niveau sonore), les 
changements de direction pose un probleme majeur d'utilisabilite des balises. En effet, 

^Les points de navigation sont des points strategiques, jonchant le chemin vers une destination, 
entre lesquels I’utilisateur peut se deplacer en ligne droite en toute securite. Ils sont done generalement 
situes au niveau des virages ou des intersection. 
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d’apres Walker et Lindsay [WL04], il est indispensable de definir nn rayon de captnre, 
qni est la distance a partir de laqnelle le systeme considere qn’nn point de navigation 
est atteint et presente le point de navigation snivant^. Celni-ci doit alors etre ajnste 
de fagon optimale en fonction dn contexte environnemental ponr qne I’anditenr snive 
an mienx le chemin qne I’on sonhaite Ini voir emprnnter. Par exemple, comme I’illnstre 
la fignre 5.1, ponr qn’il snive nn trottoir, le rayon de captnre doit etre snffisamment 
grand ponr eviter tont depassement et snffisamment petit ponr eviter tont ctiangement 
de direction prematnre. 



Fig. 5.1 - Definition d’nn rayon de captnre ponr Vutilisabilite des balises sonores dans nn 
environnement reel (d’apres Walker et Lindsay [WL04]). Si le rayon de captnre est trop 
petit, I’ntilisatenr risqne de depasser la position indiqnee, et de se retronver en plein 
milien d’nne rne. Reciproqnement, si le rayon de captnre est trop grand I’ntilisatenr 
risqne de changer trop tot de direction et de percnter nn obstacle. 


Bien qne I’etnde d’nne navigation strictement anditive pnisse nons renseigner snr la 
capacite d’nn individn a s’orienter et a se deplacer dans I’espace a I’aide des indices de 
la localisation anditive, les cas d’nsage qne nons avons presentes sont assez eloignes de 
notre contexte applicatif. En effet, la navigation anditive, lorsqne I’on dispose anssi d’in- 
dices visnels necessite, semble-t-il, nne ntilisation differente de la spatialisation sonore. 
De pins, nons ne comptons pas mettre en oenvre des dispositifs complexes de realite ang- 
mentee, et encore moins de geo-localisation. Or, senle I’experience de Lokki et Grohn 
[LG05], a notre connaissance, a en ponr objet la comparaison des performances d’nn 
ntilisatenr lors d’nne navigation sonore, visnelle et andiovisnelle, dans nn environnement 
virtnel. Lors de cette experience, les participants se deplagaient dans les trois dimen¬ 
sions de I’espace a I’interienr de proteines (Fignre 5.2.a), le long de chemins predefinis, 
a la recherche de cibles representees visnellement par des spheres de conlenr blanche 
(Fignre 5.2.b) et anditivement par nn brnit rose. On retiendra essentiellement de lenr 

’^Le systeme, developpe par Walker et Lindsay, accompagnent le changement de position de la cible 
intermediaire (on du point de navigation) par un « son de carillon », qni se declenche des qne la distance 
est inferieure an rayon de capture. 
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experience que la navigation a ete realisee pins efficacement lorsqne I’utilisatenr ponvait 
mettre a profit, non senlement les indices visnels, mais aussi les indices sonores qui lui 
etaient fonrnis. En effet, ces derniers se revelent etre particulierement ntiles lorsqn’nne 
cible se tronve an dela dn champ visuel, on qn’elle est simplement cachee par d’autres 
objets. Lokki et Grohn ont d’aillenrs observe nne certaine complementarite des moda- 
lites visnelles et anditives. II semblerait que la strategie des participants ait consiste a 
utiliser les indices sonores dans un premier temps, pour determiner la direction globale 
de la cible et les indices visnels, senlement pour I’approche finale. 



(a) (b) 


Fig. 5.2 - Experience de navigation audiovisuelle dans un environnement virtuel 
(d’apres Lokki et Grohn [LG05]). Les participants naviguent en vue subjective a I’inte- 
rieur de proteines le long de chemins predefinis et doivent trouver 15 cibles en mettant 
a profit les indices visnels et/ou sonores qui leur sont fonrnis. 


Dans la plupart des travaux rencontres dans la litterature, il ne s’agit pas tant de 
naviguer dans un environnement que de s’orienter librement vers nne succession de 
cibles. Nous ne pouvons pas veritablement parler de navigation puisqu’a aucun moment 
Lutilisateur ne doit faire de choix. Les difficultes rencontrees par un utilisateur a trouver 
son chemin, on la connaissance qu’il elabore an gre de son exploration sont clairement 
des questions qui sont eludees. Ainsi les taches, etant plutot perceptives que cognitives, 
elles sont finalement assez proches de cedes rencontrees en psychoacoustique pour I’etude 
des mecanismes de localisation dynamique. L’etude de Lokki et Grohn [LG05] est done 
assez exemplaire, de ce point de vue. Gependant, elle ne traite que de I’apport des 
indices de la localisation auditive et ne se pose pas la question de la fagon dont on 
pent les utiliser pour ameliorer les performances de navigation. Ainsi, en I’absence de 
travaux adressant la problematique de « I’accessibilite d’un environnement virtuel », il 
nous semble pertinent d’approfondir notre etude dans cette direction. Mais avant de se 
demander comment un individu apprehende I’espace et navigue dans un environnement 
virtuel, il semble logique de comprendre an prealable quelles sont ses capacites pour 
la navigation dans un environnement reel, construit par I’homme et arbitrairement 
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complexe. 


5.1.1.2 Acquisition visuelle de connaissances spatiales dans un environne- 
ment construit 

Si Ton pose le probleme naiVement, le deplacement dans un environnement construit 
{e.g. un musee, nontenant differentes salles, dans lesquelles sont places des panneaux 
qui les divisent en differents espaces) n’offre qu’une succession d’observations locales de 
I’espace. La presence d’obstacles reduit considerablement I’information disponible sur 
renvironnement et, en consequence, limite la capacite d’un individu a raisonner sur la 
position relative des « objets » qui s’y trouvent. Comme I’illustre la figure 5.3, la seule 
fagon de resoudre ce probleme est d’explorer I’espace, en diversifiant les observations 
locales pour verifier certaines hypotheses. Ce n’est qu’en rassemblant ces fragments de 
perception en un tout, qu’un individu peut eventuellement construire une representa¬ 
tion mentale de I’espace qui sera mise a profit pour raisonner sur son environnement. 



Fig. 5.3 - Exemple de succession d’observations locales, pour la construction d’une 
representation mentale de I’environnement (emprunte a Edwards et Ligozat [EL04]). En 
raison des differents obstacles qui se presentent a lui, I’observateur ne voit que I’objet 
A, lorsqu’il est point PI. II peut ensuite apercevoir les objets B et C en se deplagant au 
point P2. Ce n’est qu’en se deplagant finalement au point P3, qu’il voit I’objet D. 


Or, lorsque les obstacles sont tres nombreux et I’espace complexe {e.g. une ville), 
I’information la plus sure est celle relative a la position et aux dimensions des obstacles 
eux-memes, plutot qu’aux objets de I’environnement qui sont le plus souvent occultes. 
Ainsi, d’apres Edwards et Ligozat [EL04], « les obstacles acquierent une dominance on- 
tologique sur les points ponctuels, et la description de I’environnement devient avant 
tout une description des obstacles, suivie par une description plus ambigue des objets ». 
Ainsi, dans le contexte d’un environnement reel, les donnees du probleme sont bien 
plus complexes que celles enoncees section 2.4.2. On ne peut pas simplement encoder 
la position spatiale d’un ensemble d’objets pour creer une carte cognitive de I’espace 
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sur laquelle on pent s’appuyer pour s’y reperer. Pourtant, I’etendue des connaissances 
que Ton acquiert grace a I’exploration visuelle est plus variee que ce que le laisse croire 
I’exemple precedent. En effet, il caracterise bien la situation d’un individu « naif », qui 
decouvre un environnement pour la premiere fois, mais pas celle du citadin, par exemple, 
dont I’experience de son environnement s’inscrit dans la duree. 

D’apres Roland Barthes [Bar94a], « I’espace humain en general (et non seulement 
I’espace urbain) a toujours ete signifiant », et Turbaniste Kevin Lynch « semble etre le 
plus proche de ces problemes de semantique urbaine dans la mesure on il s’est preoccupe 
de penser la ville dans les termes memes de la conscience qui la pergoit, c’est-a-dire de 
trouver I’image de la ville dans les lecteurs de cette ville ». En effet, Lynch [LynGO], dans 
son ouvrage « The image of the city », accorde un grande importance a la lisibilite (on 
legibility) de la ville, qui conditionne la « qualite » des representations mentales qu’un 
individu construit de son environnement et done son habilete a s’y mouvoir. Or, meme 
si chaque image mentale est propre a chacun. Lynch a su trouver, dans la « forme phy¬ 
sique » de la cite, les unites discretes, permettant de caracteriser une image publique de 
I’espace urbain, generalisation des images individuelles. Il les decrit de la fagon suivante : 

- (Chemins) « Canaux», le long desquels, I’observateur se deplace {e.g. trottoir, 
route, etc.). Pour la plupart des individus, ce sont les elements predominants de 
leur image de la cite. 

- (Frontieres) Elements lineaires, qui ne sont pas consideres comme des chemins 
par un observateur. Ce sont des « barrieres », plus on moins franchissables qui 
separent une region d’une autre. Bien qu’elles ne soient sans doute pas aussi 
importantes que les chemins pour un individu, elles peuvent avoir tout de meme 
une certaine fonction structurante {e.g. certains grands axes rentiers d’une ville, 
le contour d’une ville dessine par Lean on des murs). 

- (Districts) Regions reconnaissables, notamment, par leurs caracteristiques phy¬ 
siques, qui leurs conferent une identite. La plupart des individus structurent ge- 
neralement leur environnement de cette fagon. Les differences inter-individuelles 
dependent done du fait que les Districts on les Chemins sont les elements domi¬ 
nants de I’image mentale. 

- (Nceuds) Points strategiques de focalisation a partir desquels et vers lesquels, un 
observateur se deplace. Ce sont principalement des jonctions, des intersections, 
des convergences de chemins, etc. Cependant, ils peuvent simplement etre des 
points de concentration d’une activite on d’une caracteristique physique. Ils sont 
typiquement les points de focalisation des Districts. Ils jouent, eux-aussi, un role 
structurant. 

- (Points de repere on Landmarks) Ce sont des points de reference externes 
{i.e. ils ne sont pas penetrables). Certains sont distants, typiquement visibles sous 
des angles varies et a de grandes distances, pouvant etre utilises comme reference 
radiale puisqu’ils depassent des elements plus petits . Ils peuvent etre a I’interieur 
de la ville, on a une distance telle qu’ils symbolisent, pour des raisons pratiques, 
une direction constante {e.g. une tour isolee, une montagne, etc.). Certains, an 
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contraire, sont principalement locaux et visibles seulement a certains endroits on 
selon certains angles d’approche {e.g. les panneaux, les arbres, les magasins, etc.). 
Les Landmarks conferent frequemment une identite a un lieu, mais ils peuvent 
parfois etre utilises comme elements structurants. Ils deviennent de plus en plus 
importants a mesure que le citadin se familiarise avec certains dans la ville. 

On retrouve les memes elements constitutifs de la representation mentale dans le 
modele LRS (pour Landmark, Route, Survey) propose par Seigel et White [SW75]. Ce 
modele considere qu’un individu localise dans un premier temps les lieux et les objets 
importants, acquerant ainsi une eonnaissanee des points de repere (on Landmark know¬ 
ledge). Plus tard, se developpe une eonnaissanee des itineraires (on route knowledge), 
a mesure que les points de repere sont « connectes » les uns aux autres par les che- 
mins parcourus. Une telle eonnaissanee pent etre consideree comme un graphe, qui se 
complete an gre de I’experience. Enfin, lorsque sa eonnaissanee de I’espace devient suf- 
fisante, I’individu acquiert une eonnaissanee de la configuration (on survey knowledge), 
sorte d’image « en survol » de son environnement. A ce stade de la cognition spatiale, 
meme s’il n’a pas parcouru I’ensemble des chemins possibles, il est capable de trouver 
un chemin « a la volee », puisqu’il a la capacite d’estimer les distances et les directions 
relatives de n’importe quel couple de points dans I’espace. 

Ainsi, meme si de nombreuses questions restent en suspens, les recherches concer- 
nant la eonnaissanee spatiale, issues du domaine de la perception visuelle, semblent 
suffisamment avancees pour que I’on puisse emettre des hypotheses serieuses sur les 
capacites d’un individu a elaborer des strategies qui guident ses deplacements (on way¬ 
finding). En revanche, lorsqu’un individu ne souffre d’aucune deficience visuelle, on ne 
salt rien du role que pent jouer la perception auditive, si taut est qu’elle en joue un. 
Pourtant, lorsqu’il s’agit de concevoir une mediation technique permettant de rendre 
un environnement virtuel inconnu plus accessible, il ne fait aucun doute que la modalite 
sonore possede des qualites que n’a pas la modalite visuelle, et qu’il est necessaire de 
mettre a profit. Les travaux de Lokki et Grohn [LG05] I’ont d’ailleurs bien montre. Mais, 
avant de se poser la question des contributions respectives de la vision et de 1’audition 
a la eonnaissanee spatiale, teutons d’en apprendre un pen plus sur cet inconnu qu’est 
le paysage sonore. 


5.1.1.3 Le paysage sonore (soundscape) 

Murray R. Schafer [Sch93], qui a introduit la notion de « paysage sonore », est plus 
proche dans son analyse de notre environnement sonore quotidien de Pierre Schaeffer 
et de son « Traite des objets musicaux » [Sch66] que de Kevin Lynch. Son propos etant 
plutot celui d’un compositeur que d’un urbaniste, son point de vue est avant tout es- 
thetique. Pourtant, il est I’un des premiers, et encore I’un des rares, a avoir tente de 
decrire ce qu’ont pu representer pour I’humain, a travers I’histoire et les civilisations, 
les sons qui ont occupes son espace. 
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Lynch [LynGO], a pu decrire les elements signifiants de I’environnement urbain en 
se fondant sur les proprietes topologiques et geometriques de la cite. Or, la structura¬ 
tion perceptive de notre environnement sonore n’est pas spatiale an sens on on I’entend 
pour la vision. En effet, comme nous I’avons deja remarque section 3.2.1, un indi- 
vidu semble regrouper priori! airement les sequences d’ambiances sonores urbaines sur 
la base du contenu semantique (identification de sources) et du caractere evenementiel 
(avec evenements sonores identifiables) on amorphe (sans evenement sonore particulier) 
des sequences [Maf99]. Les paysages sonores et visuels n’ont done pas la meme mor- 
phologie et ne donnent pas acces an meme type de connaissance sur I’environnement. 
Tandis que la vision donne acces a une connaissance de la configuration, I’audition, elle, 
donne plutot acces a une connaissance des evenements. En d’autres termes, a I’oppose 
de toute cartographie, le paysage sonore ne renseigne pas tant sur les caracteristiques 
topographiques et geometriques de I’espace, que sur les caracteristiques des objets qui 
I’habitent. D’ailleurs, il n’est pas fait mention, une seule fois, dans I’ouvrage de Schafer 
[Sch93], de la localisation auditive. Cela ne I’empeche pas de definir et d’utiliser la notion 
de perspective dans ses descriptions des paysages sonores, mais en I’associant plutot a 
celle de dynamique on de contraste. II fait ainsi le rapprochement entre I’apparition de 
la perspective dans la peinture de la Renaissance, et I’introduction d’une quantification 
systematique du niveau sonore {piano et forte) marque dans I’histoire par la Sonata 
Pian’e Forte de Giovanni Gabrieli. 

Pourtant, comme Lynch, on pent considerer que Schafer a bien remarque qu’il existe 
dans tout espace, a partir du moment on il est habite par I’homme, et fait par lui, « ce 
rythme fondamental de la signification qui est I’opposition, I’alternance et la juxtaposi¬ 
tion d’elements marques et d’elements non marques » [Bar94a]. Il est done tres attache 
a la dualite figure/fond (on figure/ground), empruntee a la psychologie de la perception 
visuelle. Geci I’amene a definir differents plans sonores, soit differentes categories de 
sons, qui caracterisent un paysage sonore^ : 

- (Keynote on Tonalite) Il s’agit, par analogie avec le systeme tonal en musique, 
d’une sorte de reference (on tonique), grace a laquelle, les autres sons prennent 
tout leur sens. Ges sons constituent une sorte d'arriere-plan (le fond on ground), 
dont I’existence est expliquee par la geographie on le climat (Lean, le vent, la 
foret, les oiseaux, les insectes). « Ges sons n’ont pas besoin d’etre ecoutes de fagon 
continue [...]; ils deviennent des habitudes d’ecoute malgre eux »[Sch93]. 

- (Signals on Evenements) Il s’agit de I’ensemble des sons vers lesquels I’attention 
est dirigee. D’ailleurs certains de ces sons doivent imperativement etre entendus, 
puisqu’ils out la capacite d’alerter I’individu (sirenes, cloches, klaxons, sifllets, 
etc.). En contraste avec la tonalite, ils constituent une sorte de premier plan (on 
figure) dans un paysage sonore . 

- (Soundmarks on empreintes) Inspire du terme landmark (on point de repere) 


®Dans sa these, Guastavino [Gua03] utilise une traduction des termes anglo-saxons employes par 
Shafer. Nous nous conformerons done a sa traduction, par souci de coherence. 
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de Lynch [LynGO], ils emergent, quant a eux, du premier plan. Dans le contexte 
d’une communaute donnee, ils possedent des caracteristiques qui les distinguent 
des autres sons, les rendant, non seulement remarquables mais surtout identifiables 
par les individus de cette communaute. Meme si Schafer ne donne pas d’exemple 
concret de soundmark, on pent supposer que les cloches d’eglises peuvent jouer un 
tel role, de meme que les comes de brume, dont la fonction est plus explicitement 
de servir a I’orientation. 

Comme le remarque tres justement Guastavino [Gua03], cette categorisation pent 
etre mise en relation avec les trois types d’ecoute, ecouter/entendre/oui'r, decrits par 
Pierre Schaeffer [SchGG] (Tableau 5.1). 


Plans sonores 

Ecoutes 

Definition (d’apres Chion [Chi95]) 

Tonalite 

Oui'r 

G’est etre frappe de sons, e’est le niveau le plus 
brut, le plus elementaire de la perception; on 
« oit » ainsi passivement, beaucoup de choses 
qu’on ne cherche ni a ecouter ni a comprendre 
(ni meme a entendre). 

Evenements 

Entendre 

G’est manifester une intention d’ecoute, selection- 
ner dans ce qu’on oit, ce qui nous interesse plus 
particulierement, pour operer une qualification de 
ce qu’on entend. 

Empreintes 

Ecouter 

G’est traiter le son comme un indice, pour I’iden- 
tification d’une source, d’un evenement on d’une 

cause. 


Tab. 5.1 - Gorrespondance entre les plans sonores de Schafer [Sch93] et les ecoutes de 
Shaeffer [SchGG] (d’apres Guastavino [Gua03]). 


Ges trois ecoutes peuvent, a leur tour, etre mises en relation avec les etapes pre- 
attentives et attentives, introduites par la theorie des ressources attentionnelles, que 
decrivent Jones et Yee [JY94]. « Dans I’etape preattentive, les percepts d’objets cohe- 
rents sont formes sans effort selon les principes de la Gestalt » [JY94]. II semble done 
qu’une premiere segregation s’applique entre I’arriere-plan (on tonalite), que Ton oie 
passivement et le premier plan {evenements et empreintes), sur lequel s’exerce verita- 
blement I’attention. En effet, « les contraintes qui touchent a I’attention appartiennent 
a la seconde etape, etape de I’attribution de ressources »[JY94]. G’est celle on s’applique 
I’attention selective, e’est-a-dire la segregation intentionnelle exigeant un effort, entre 
les evenements que Ton entend et les empreintes (on soundmark) que Ton ecoute. 

Pour Schafer, cette organisation en plans sonores et plus particulierement, I’oppo- 
sition figure/ground, offre un cadre de reference pour caracteriser notre experience sen¬ 
sible. Typiquement, elle lui serf de support pour distinguer des paysages sonores offrant 
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respectivement de bonnes et de mauvaises conditions d’ecoute {hi-fi and lo-fi sound- 
scape^). Les qualificatifs hi-fi et low-fi semblent exprimer ici le degre de « lisibilite » (on 
legibility) du paysage an sens de Lynch {i.e. le degre de clarte apparente). Typiquement 
dans une ville Schafer remarque que la perspective sonore on le contraste s’estompe et 
que la separation figure/ground est rendue plus floue par rapport a la campagne plus 
calme, on I’on entend mieux chaque detail qui compose le paysage sonore. En effet, les 
environnements lo-fi, sont « surcharges » de sons, se masquant les uns les autres, on 
seuls ceux dont le niveau sonore est extremement eleve emergent du fond sonore. En 
d’autres termes, pour Schafer, la lisibilite d’un paysage sonore semble pouvoir s’evaluer 
a I’aune de I’efficacite de Leconte selective, dont est tributaire la capacite d’un auditeur 
a qualifier et identifier les evenements qui le composent. 

Bien que nous ayons constate que la structuration perceptive de notre environne- 
ment sonore n’etait pas a proprement parler spatiale, les travaux de Guastavino [Gua03] 
sur la valide ecologique de la reproduction d’une image spatiale, introduite section 3.2.2, 
semblent indiquer que la dimension spatiale du paysage sonore n’est pas sans laisser de 
« trace » dans les representations mentales de notre environnement. Notamment, nous 
avons mis en valeur le fait que la sensation d’enveloppement etait Tune des « natures 
desirees » d’une reproduction sonore faisant reference a I’experience vecue d’une archi¬ 
tecture. En outre, meme si ce temps est sans doute revolu, le role fondamental qu’ont 
pu jouer les cloches d’eglises dans les villes occidentales, indique bien que certaines 
empreintes (on soundmark) d’un paysage sonore, peuvent jouer un role equivalent on 
complement air e aux points de repere visuels (on landmark) decrit par Lynch. Qu’ils 
soient globaux on locaux, pourquoi ne participeraient-ils pas, eux aussi, a I’elaboration 
des strategies qui guident I’individu dans ses deplacements? Meme si I’on pent douter 
qu’un individu ne souffrant pas de deficience visuelle soit en mesure d’utiliser dans ses 
deplacements quotidiens les indices que lui offrent le paysage sonore, rien n’empeche, 
dans un environnement virtuel de tirer un meilleur profit de I’habilite spatiale du sys- 
teme auditif. II nous reste a determiner de quelle fagon. 


5.1.2 Modes d’acquisition de connaissances dans un environnement 
virtuel 3D, dit non-immersif 

En se plagant dans le cadre des applications multimedia actuelles, nous nous eloi- 
gnons de la perception naturelle, tant d’un point de vue sonore que visuel. Gela signifie, 
tout abord, qu’un compromis doit etre trouve en termes de qualite technique des dis- 
positifs. S’agissant du rendu sonore an casque, cela implique qu’une synthese binaurale 
n’est pas individualisee, que la localisation dynamique des sources n’est pas possible, du 
moins de fagon naturelle {i.e. compensation des mouvements de la tete) et, qu’eventuel- 

'^Les termes « hi-fi » et « lo-fi » , abreviation des termes « high fidelity » et « low fidelity » sont des 
abus de langage conscients de Schafer, qui cherche a exprimer de fagon concise, ce qui ne pent I’etre. Ce 
dont il s’agit n’a rien a voir avec la fidelite. II semble plutot s’agir de qualite, notion bien plus complexe, 
comme nous avons pu nous en rendre compte au chapitre 3, lorsque nous avons tente de determiner les 
attributs perceptlfs d’une image spatiale et les facteurs psychologiques mis en jeu {section 3.2). 
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lement le nombre de HRTF [i.e. le nombre de positions spatiales que I’on pent definir) 
est reduit. Pour un rendu sur haut-parleurs, ce compromis s’exprime plutot par une re¬ 
duction du nombre de haut-parleurs, par exemple a la geometrie dite « 3 - 2 », adoptee 
par le format 5.1. Quant au rendu graphique, il s’agit plutot d’image en perspective, 
que de veritable image en relief, soit la simple projection d’objets 3D sur la surface de 
I’ecran. Ainsi, nous nous plagons dans le contexte d’environnements virtuels faiblement 
immersifs®, qui, a y regarder de plus pres, conduisent a des representations audiovisuelles 
de I’espace semblables a cedes que Ton rencontre au cinema. En effet, au dela de toute 
idee de fidelite, dont nous avons deja discute du caractere fallacieux, la presence du 
« cadre » on de la « fenetre » semble I’element structurant d’un paradigme. C’est plutot 
la dimension interactive, comme I’illustrent si bien les applications video-ludiques, qui 
constitue veritablement la rupture avec la tradition cinematographique. 

5.1.2.1 Point de vue et point d’ecoute 

L’emploi de la metaphore de la camera est un bon moyen d’analyser les represen¬ 
tations spatiales rencontrees dans les jeux et, par extension, celles rencontrees dans les 
systemes d’information mettant en oeuvre un environnement virtuel 3D. Or, si I’on fait 
abstraction, dans un premier temps, des aspects dynamiques, la representation visuelle 
de I’espace est caracterisee en premier lieu par le points de vue qui est, dans son accep- 
tion strictement spatiale, I’endroit d’ou la scene est consideree. On pent ainsi distinguer 
trois archetypes de point de vue sur I’espace : 



Fig. 5.4 Illustration des trois archetypes de points de vue sur I’espace du Jen : (a) 
premiere personne {Portal), (b) troisieme personne {Mario 64) et (c) synoptique {Sid 
Meier’s Civilization IV). 


- (Premiere personne) C’est un point de vue dit aussi egocentrique on subjectif, 
puisque I’observateur voit avec les « yeux » du personnage qu’il incarne, comme 
c’est le cas, par exemple, dans les jeux de type FPS (pour First Person Shoo¬ 
ter), les simulateurs de vol on de conduite automobile. Meme s’il semble le plus 
naturel et le plus intuitif, c’est le mode de perception visuelle qui offre le moins 
d’informations sur le contexte spatial du jeu (Figure 5.4.a). 

®Au sens le plus commun du terme, qui, comme nous I’avons vu section 4.2.1, est tres critiquable. 
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- (Troisieme personne) Meme si le monde est toujours pergu « de I’interieur », 
ce point de vue conduit a un plus haul degre d’information contextuelle. Cela 
se revele particulierement critique lorsque le joueur doit constamment evaluer sa 
position par rapport a la structure spatiale du jeu pour eviter de tomber dans un 
trou, pour sauter d’une plateforme a une autre, comme c’est le cas pour les jeux de 
plateforme ou d’aventure-action. En contrepartie, ce point de vue rend certaines 
actions plus difficiles, particulierement celles necessitant une perception precise 
de I’orientation de I’avatar, par exemple, la visee d’une cible (Figure 5.4.b). 

- (Synoptique) Aussi appele « god view », « bird view » ou point de vue alloeen- 
trique, il offre au joueur, a I’instar d’une carte, une vue d’ensemble sur I’environ- 
nement. Typiquement utilise dans les jeux de guerre et autres jeux de strategie, 
il implique souvent la possibilite de modifier I’echelle de la representation visuelle 
en deplagant la camera verticalement, pour beneficier d’une vue plus ou moins 
detaillee (Figure 5.4.c). 

De la meme fagon que Ton defini un point de vue, on peut definir un point d’eeoute, 
qui, par analogie avec le microphone, est I’endroit d’ou est « captee » la scene sonore. Ce- 
pendant, c’est une notion beaucoup plus ambigue. Comme nous I’avons deja mentionne 
seetion 4-2.1, il parait naturel au premier abord, de faire du couple camera/microphone, 
comme du couple oeil/oreille un ensemble solidaire, done de faire coi'ncider le point 
d’ecoute et le point de vue, lorsque ce dernier est subjectif (ie. egocentrique). Le carac- 
tere omnidirectionnel de la perception auditive offre d’ailleurs I’opportunite de combler 
le manque d’information contextuelle sur I’espace et d’augmenter, comme nous I’avons 
maintes fois mentionne, les capacites de « conscience de situation » (ou « situational awa¬ 
reness ») du joueur. Cependant, quelle doit etre la position du point d’ecoute, lorsque le 
point de vue est objectif {i.e. a la troisieme personne ou synoptique) ? 

Notons tout d’abord que I’espace sonore semble avoir en soi un caractere fondamen- 
talement egocentrique. En effet, la perception subjective {i.e. I’utilisateur pergoit « de 
I’interieur » les objets d’un environnement sonore) sied bien aux qualites omnidirec- 
tionnelles de la modalite auditive. D’ailleurs Cohen [CL93] qualifie son systeme Handy 
Sound, que nous avons decrit section 4-3.1 de type « perspective egocentrique ». Or, il 
a developpe une variante de ce systeme, appelee MAW (pour Multidimensional Audio 
Window), utilisant cette fois-ci un dispositif d’affichage montrant une vue synoptique 
en deux dimensions (ou « de dessus ») de la position des sources virtuelles par rapport 
a I’auditeur. Ainsi, plutot que de deplacer les sources sonores {i.e. les voix des inter- 
locuteurs dans un systeme de teleconference), par rapport a son propre corps, comme 
dans Handy Sound, I’utilisateur peut arranger a sa guise, dans MAW, la position des 
icones visuelles symbolisant les sources et I’auditeur. Comme il est illustre Figure 5.5, 
la representation sonore reste egocentrique (comme dans Handy Sound), tandis que la 
representation visuelle est allocentrique. Cela constitue pour Cohen, un dispositif globa- 
lement de type « perspective allocentrique », puisqu’il projette I’espace sur un medium 
exterieur a I’individu (I’ecran) et paritaire {i.e. I’utilisateur, comme ses interlocuteurs, 
sont representes avec le meme type d’icone graphique). 
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Fig. 5.5 - Illustration de la dissociation entre le point de vue objectif et le point d’ecoute 
subjectif, pour la representation audiovisuelle de I’espace. 


II semble y avoir conflit, dans cette dissociation (a sens unique) du point de vue et 
du point d’ecoute, entre la place objective de I’observateur devant la scene, et la position 
subjective que le son invite a prendre. Or, d’apres Ctiion [Clii85], « ce conflit est au coeur 
du probleme de I’identification au cinema; en meme temps, il resume ce que Sternberg 
appelait ’la tendance congenitale du micro a contredire la camera’, autrement dit I’im- 
possibilite d’etablir un rapport harmonieux entre les deux messages, visuels et sonores, 
si I’on s’en tient a placer le micro et la camera d’un meme point de vue ’objectif’ ». On 
comprend bien I’interet d’un tel decrochement spatial, « qui permet de situer librement 
les personnages dans I’espace, grace a la camera, tout en maintenant avec eux, par la 
voix, le lien de I’attention et de I’identification » [Ctii85]. 

Cependant, pour approfondir ce concept de contrepoint audiovisuel, il est necessaire 
de prendre en consideration les aspects dynamiques de la representation spatiale. Or, 
des differents points de vue sur I’environnement, il en ressort deux types de locomotion : 

- Une locomotion pedestre, en reference aux jeux de type FPS, qui se developpent 
sur une surface. La metaptiore employee pour se deplacer et les conditions de 
perception etant d’inspiration « naturaliste® », nous pensons avoir fait un tout 
d’horizon suffisamment extiaustif de la litterature, pour etre en mesure d’evaluer 
V utilisabilite d’un dispositif sonore, pour la navigation dans un environnement 
virtuel construit et arbitrairement complexe. 

- Une locomotion en survol, en reference aux jeux de guerre et de strategie, pour 
lesquels les proprietes du point de vue et du point d’ecoute sont amenees a etre 




dire « ecologique ». 
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modifiees. Dans ce cas, le joueur pent, a priori, deplacer librement la camera (trois 
degres de liberte en rotation et trois degres de liberte en translation). Ce mode 
de navigation etant propre anx environnements virtnels rencontres dans certains 
jenx et, pins generalement dans certaines systemes interactifs de visnalisation 
d’information, nons nons devons d’approfondir ce cas d’nsage ponr en cerner les 
problematiqnes sons-jacentes. 

C’est done snr I’etnde dn mode d’exploration « en snrvol » qne nons allons clotnrer 
I’etat de I’art traitant des facteurs humains, dans la commnnication hnmain-machine. 
Nons ponrrons ensnite nons focaliser snr les aspects « systeme » des interfaces de na¬ 
vigation dans les environnements sonores 3D et presenter les modeles snr lesqnels nons 
appnyer ponr en definir I’architectnre. 

5.1.2.2 Vers une interface sonore et visuelle, dite zoomable 

Les jenx, tels qne Sim City et Civilization, on encore I’application google earth sont 
fondes snr le meme principe de navigation, ntilisant les fonctions de pan et de zoom 
(Fignre 5.6) : 

- (pan) Changement de position ponr nne echelle donnee. C’est nne exploration 
« tiorizontale ». 

- (zoom) Changement d’echelle ponr nne position donnee. C’est nne exploration 
« verticale ». 



Fig. 5.6 - Les operations de pan et de zoom : (a) pan pnr, (b) zoom pnr, (c) zoom 
centre antonr dn point q (d’apres Fnrnas et Bederson [FB95]). 


Or, pins I’echelle est petite, pins le nombre d’objets interceptes par le point de vue 
est important, ce qni a ponr conseqnence notamment d’angmenter le « cout » des al- 
gorithmes de rendn graphiqne. Ainsi, ponr s’assnrer qne celni-ci reste constant, il est 
necessaire de modifier en fonction de I’echelle le nivean de detail des objets (le nombre de 
vertices des maillages 3D, la resolntion des textnres, etc.). De pins, la qnantite d’infor- 
mations transmises a I’observatenr angmente de fagon concomitante, ce qni a tendance 
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a surcharge! la representation visuelle, au detriment de sa lisibilite. Ainsi, afin qu’une 
telle interface soit utilisable, tant du point de vue de sa conception, que de son utilisa¬ 
tion, il est necessaire d’optimiser non seulement les algorithmes de rendu, mais aussi les 
capacites perceptives et cognitives de I’utilisateur. 

Afin de remedier au probleme de la surcharge d’information, le concept focus -h 
contexte a ete introduit, dans le cadre des recherches en visualisation d’informations, 
afin de permettre la cohabitation dans une meme vue de differentes echelles ou niveaux 
de detail sur les donnees representees. Tentant de tirer parti des capacites preattentives 
de la perception visuelle, une region particuliere de I’espace, le focus, est mise en valeur 
par rapport aux autres regions, qui constituent le contexte. Ces interfaces utilisent ge- 
neralement des methodes de distorsion qui deferment le rapport spatial entre les objets. 
Comme le resume Ziat [ZiaOG], « elles creent de cette fagon une region d’interet qui 
permet a I’utilisateur d’examiner un point local (le focus), tout en presentant en meme 
temps une vue holistique de I’espace pour fournir un contexte global afin de faciliter la 
navigation ». Cela a donne naissance a des interfaces, telles que les interfaces pliables 
[CCF97]) (ou a espace elastique), permettant de deplacer une « lentille » sur I’ecran (a 
la maniere d’un « fish-eye » en photographie), afin d’agrandir une partie de I’image 
(Figure 5.7). 






Fig. 5.7 - Agrandissement et distorsion a I’aide d’une surface 3D pliable (d’apres Car- 
pendale et al. [CCF97]). 


Or, dans le cas de la representation de donnees georeferencees, il est delicat de modi¬ 
fier I’organisation spatiale des donnees, puisque le systeme doit maintenir une represen¬ 
tation stable (ou coherente) de I’environnement. Pour remedier a ce probleme, Kosara 
[KosOl] s’inspire, par exemple, des effets de profondeur de champ en photographie, pour 
mettre valeur les regions d’interets, en rendant le contexte plus flou (Figure 5.8). 
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Fig. 5.8 - Illustration d’une technique de focus+contexte, utilisant un effet de flou 
(d’apres Kosara [KosOl]). 


Cependant, toutes ces techniques ont toujours pour defaut de manquer de lisibilite 
dans la zone de distorsion. La capacite d’examiner les details d’une representation (fo¬ 
cus) rentre done, de toute fagon, en conflit avec la capacite de maintenir le contexte 
global, particulierement si I’on fait un usage exclusif de la modalite visuelle. Le principe 
« overview first, zoom and filter, then details-on-demand », propose par Shneiderman 
[Shn96], semble plus adapte, puisqu’il assume cet etat des choses, en pronant d’une cer- 
taine fagon la perception successive (et non, simultanee) du contexte et du focus. II est 
alors possible de porter un soin particulier a la representation du contexte global, afin 
qu’il offre un apergu le plus utilisable possible. C’est justement I’objectif des interfaces 
dites zoomables, qui adaptent la representation, a chaque niveau d’echelle, par une tech¬ 
nique de zoom dite semantique. Ainsi, a la difference d’un zoom geometrique, qui modifie 
la « resolution » des objets, afin de conserver un « cout » constant des algorithmes de 
rendu, le zoom semantique selectionne les objets qui doivent etre representes et modifie 
leur apparence, afin de conserver une densite constante d’informations [Zia06]. 



Diminution de I ’echelle 

Fig. 5.9 - Illustration d’un zoom « semantique » applique a un objet de I’environnement 
virtuel d’information geographique (une « eglise »). 
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Comme I’illustre la figure 5.9, dans un environnement virtuel d’informations geo- 
graphiques, on peut avoir recours, a mesure que I’echelle diminue, a un degre de sche- 
matisation de plus en plus important : d’un modele 3D d’un objet, on ne represente 
plus qu’une image en 2D, puis une forme geometrique simple, un symbole et, pour fi- 
nir, une forme primitive. On supprime done, an fur et a mesure, les objets les moins 
utiles a la lisibilite de 1’environnement (consideres comme de I’ornement) et on rend 
plus « compacte » la representation de ceux qui sont afficties. Cependant, le probleme 
reste toujours qu’une augmentation de Tectielle se fait an detriment du contexte et, re- 
ciproquement, un agrandissement an detriment du detail. Bien que des methodes focus 
+ contexte, puissent etre employees, les limitations en termes de quantite d’informa¬ 
tions transmises sont intierentes a I’emploi exclusif de la modalite visuelle. Or, comme 
nous avons pu nous en rendre compte, la modalite sonore est en mesure de combler les 
lacunes de la modalite visuelle, a petite et a grande ectielle, etant donne leur complemen- 
tarite potentielle. Par exemple. Me Gookin et Brewster [MB02], recommandent, a une 
grande ectielle, de representer le foeus {i.e. les elements de 1’environnement immediat) 
a I’aide de la modalite visuelle et le eontexte (les elements plus lointains, filtres selon 
un systeme de priorite), a I’aide de la modalite sonore (Figure 5.10). Reciproquement, 
Nesbit [NesOl] suggere, a une petite ectielle, d’utiliser « un espace auditif plus ’compact’ 
dans un meme espace visuel, permettant d’entendre les details sur les donnees avec une 
grande precision, tout en maintenant le contexte global avec la representation visuelle ». 



Fig. 5.10 - Illustration de I’interface multimodale foeus + contexte, permettant de 
pallier les limites inherentes des dispositifs mobiles, en terme d’affichage (d’apres Me 
Gookin et Brewster [MB02]). 


Pourtant, meme si nous avons quelques certitudes sur la complementarite du point 
de vue et du point d’ecoute, nous n’avons apporte qu’un nombre restreint de reponses 
aux nombreuses questions qui se posent quant a la definition d’un contrepoint audio- 
visuel. Notamment, comment definit-on le concept de zoom dans la representation so¬ 
nore? Gomment peut-on faire varier le niveau de detail sonore? Quel est I’equivalent 
du zoom semantique? Dans quelle mesure les effets de spatialisation sonore doivent-ils 
etre impliques dans tout cela? 
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5.2 Modele de description et gestion de ressources pour la 
creation de scene sonore 

En tentant de definir le terme « modalite », Niguay [Nig94] constate que celui-ci est 
tiraille « entre d’une part, les preoccupations des psychologues et des ergonomes qui 
visent a developper des theories explicatives on predictives sur les interfaces nouvelles, 
et d’autre part, les considerations des informaticiens qui visent a definir des modeles 
d’architecture logicielle et des outils pour la realisation de telles interfaces ». Or, jus- 
qu’ici, nous avons, dans une large mesure, pris le point de vue des premiers et assez 
pen celui des seconds. Etant donne les problematiques liees a I’usage de la spatialisa- 
tion sonore dans une interface, une telle insistance est grandement justifiee. Cependant, 
comme nous I’avons souligne en conclusion du Chapitre 4, d ne suffit pas de proposer 
des solutions a un probleme d’usage, il faut aussi proposer des solutions techniques 
pour rendre cet usage possible. En effet, la navigation dans un environnement sonore 
requiert, avant tout, que Ton soit capable de creer un paysage sonore de synthese com¬ 
pose potentiellement d’un tres grand nombre de sources. Done, premierement, il nous 
faudra connaitre les modeles qui sont a notre disposition pour la creation d’une scene 
sonore, notamment, la definition d’une source, des effets de la propagation du son dans 
renvironnement, d’un point d’ecoute, etc. Deuxiemement, il faudra nous attarder sur le 
probleme de la gestion du niveau de detail d’une scene sonore et particulierement sur 
la fagon dont on pent optimiser le rendu des sons d’ambiances. Nous terminerons enfin 
cette revue de la litterature en illustrant comment, dans le cadre d’un systeme de repre¬ 
sentation d’information, les ressources perceptives et cognitives de rutilisateur peuvent 
elles-aussi etre optimisees. Ce sera I’occasion de presenter un modele dit de reference, 
qui illustrera comment ces elements (description de scene, gestion de ressources, etc.) 
s’integrent dans 1’architecture d’une interface pour la navigation dans un environnement 
sonore 3D. 

5.2.1 Description de scene sonore 

5.2.1.1 Les nceuds audio dans les graphes de scene BIFS 

Comme le rappelle Vaananen [VaaOSa], dans la plupart des langages de description 
de scene, orientes objets, tels que VRML, X3D on encore MPEG-4, 1’environnement est 
defini par un graphe de scene, on les objets (appeles nceuds) peuvent etre lies ensemble 
pour former une structure hierarchique {e.g. arbre). Dans ce graphe, les objets du plus 
bas niveau sont typiquement ceux qui sont presentes a I’utilisateur (son, video on ele¬ 
ments graphiques). Ils heritent des proprietes des objets peres qui peuvent etre utilises 
pour grouper, positionner on modifier la taille de leurs enfants. En general, ces langages 
permettent aussi d’inclure des parametres d’interaction et des evenements dynamiques. 
La fagon dont les objets sont organises dans le graphe de scene, aussi bien que les liens 
et les interactions entre eux et avec I’utilisateur, definit la configuration spatiale et le 
comportement dynamique de la scene. 
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Fig. 5.11 - Exemple simple de scene MPEG-4, decrite grace aux noeuds de VAdvanced 
AudioBIFS (d’apres Vaananen [VaaOSa]). On entend an point d’ecoute LI, le son di¬ 
rect et les reflexions. An point d’ecoute L2, on entend seulement le son direct flltre 
(occlusion). 


En terme de description de scene sonore, le format BIFS (pour « Binary Format 
For Scenes ») de la norme MPEG-4 est sans doute I’un des plus avances. Dans la pre¬ 
miere version du standard, un ensemble de noeuds, appele AudioBIFS, a ete introduit 
pour le mixage et I’application d’effets audio. Les effets de spatialisation sonore sont 
appliques par I’intermediaire d’un noeud Sound, utilise pour positionner un flux audio 
(noeud AudioSource on AudioMix), en fonction de la position d’un point d’ecoute'^ 
dans la scene (noeud ListeningPoint). G’est dans la seconde edition, qu’est apparue 
une extension de I’ensemble des noeuds audio, appelee « Advanced AudioBIFS », per- 
mettant la modelisation d’environnement sonore (on auralisation) et mettant en oeuvre, 
notamment, les deux approches dites physique et perceptive de la parametrisation des 
effets de salles (voir Jot, [Jot92] [JG92] et [JW95]). La figure 5.11 presente un exemple 
simple de scene MPEG-4, utilisant les noeuds AcousticScene, AcousticMaterial et 
DirectiveSound, qui out ete ajoutes pour cette deuxieme version de 1’AudioBIFS. 
Voici une description sommaire de ces trois noeuds audio : 

^Si aucun point d’ecoute n’est definit, la position de I’auditeur virtuel, est, par defaut, celle definie 
par le point de vue, soit le noeud Viewpoint 
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- (AcousticScene) L’interface de ce noeud presente un champ {center et size) per- 
mettant de definir une zone d’ecoute. Le point d’ecoute et la source doivent etre a 
I’interieur de cette zone pour etre audibles. Elle presente aussi les champs neces- 
saires a la definition des effets de reverberation tardive {reverb Time, reverb Level 
et reverb Delay). 

- (AcousticMaterial) Ce noeud permet de definir les proprietes sonores (et aussi 
visuelles) des surfaces 3D qui sont definies par le noeud IndexedFaceSet. Les 
proprietes de transmission (champ transfunc) et de reflection (champ reffunc) 
d’une surface sont definies sous forme de coefficients d’une fonction de transfert, 
pour permettre un gain dependant de la frequence. La zone d’ecoute, specifiee 
dans le noeud AcousticScene, definit les limites pour le processus d’auralisation, 
en regroupant differentes surfaces acoustiques sous un meme noeud Group. Cela 
permet de definir differentes zones avec differentes « signatures acoustiques » dans 
une meme scene BIFS. 

- (DirectiveSound) Etant une extension du noeud Sound, ce noeud herite de son 
interface. II permet done de definir la position d’un son dans I’espace et son atte¬ 
nuation en fonction de la distance par rapport an point d’ecoute. II se distingue 
essentiellement par la possibilite de definir une directivite, soit I’application d’un 
filtrage dependant de la direction d’emission. Un flag a aussi ete ajoute, qui per¬ 
met de choisir si la source doit etre affectee, on non, par les effets de reverberation. 


Scene 

2D/3D 


Audio 

subgraph 


Flux audio 
encodes et 
multiplexes 


_ Sortie audio spatial is6e 

Spatialisation 2D Spatialisation 3D 



Fig. 5.12 - Exemple de traitement des flux audio dans Vaudio subgraph d’un graphe de 
scene AudioBIFS 


Enfin, comme le souligne Scheirer et al. [SVH99], le graphe de scene de 1’AudioBIFS, 
appele audio subgraph, est different, dans sa conception, du graphe principal. En effet. 
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pour ce dernier, les objets au plus bas niveau sont typiquement ceux qui sont presentes 
a I’utilisateur {e.g. noeud DirectiveSound, pour une source sonore, noeud Shape, pour 
un objet 3D). Les noeuds parents sont alors le plus souvent utilises pour modifier les 
proprietes de ces objets {e.g. couleur, translation, rotation). Daudio subgraph (Figure 
5.12), quant a lui, decrit plutot les traitements successifs qui sont appliques sur les flux 
audio multiplexes originaux (decodage, mixage, effet, etc.), avant qu’ils ne soient atta¬ 
ches a un noeud du graphe principal (Sound, Sound2D® ou DirectiveSound). 


5.2.1.2 Interaction avec le contexte environnemental - les limites de I’au- 
dioBIFS 

Avec VAdvanced AudioBIFS, la norme MPEG-4 offre un langage de description de 
scene sonore tres puissant et tres versatile, permettant de creer des contenus audio tres 
varies, aussi bien pour la television, la radiophonie, les applications de telecommunica¬ 
tion, telles que la teleconference, ou V auralisation d’environnements virtuels. Cependant, 
malgre son extreme sophistication, il lui manque encore un degre de rafhnement pour la 
creation de scenes sonores spatialisees. En effet, bien que le noeud AcousticMaterial 
permette de controler finement la transmission d’une onde sonore a travers une surface 
3D definie par le noeud IndexedFaceSet, les effets environnementaux sont limites a 
la simulation des effets d’occlusion (ou muffling effect). Les versions 4 et superieure de 
I’API FAX de Creative Labs proposent, de ce point de vue, une simulation beaucoup 
plus elaboree de I’environnement acoustique. Void un bref apergu de la fagon dont sont 
crees les differents effets dit « environnementaux », proposes par cette interface de pro- 
grammation : 

- (Obstruction) On parle d’obstruction lorsqu’un objet dans une salle separe la 
source sonore de I’auditeur (Figure 5.13.a). Le son direct ne pent atteindre I’au- 
diteur qu’en etant transmis a travers I’obstacle ou par diffraction. En traversant 
I’obstacle, le son direct, est « assourdi » (filtrage passe-bas, dit aussi « muffling »). 
La diffraction, quant a elle, est responsable de la creation de sources dites secon- 
daires, assourdies, elles aussi, par rapport a la source originale et positionnees aux 
limites « visibles » de I’obstacle. 

- (Occlusion) Si deux salles sont separees par une paroi, on dit qu’il y a occlusion 
du son (figure 5.13.b). A la difference de I’obstruction, le son direct et le son 
reverbere sont assourdis. 

- (Exclusion) Si la paroi presente une ouverture {e.g. porte), on dit qu’il y a ex¬ 
clusion (5.13.c). Dans ce cas, le son direct passant par I’ouverture contribue a la 
reverberation dans I’environnement de destination et la reverberation de la salle 
on se se trouve I’auditeur est assourdie par la paroi. Si I’auditeur ne se trouve 

®Ce ncBud a ete cree pour attacher un son a des objets d’une scene visuelle 2D. Pour cela le flux 
audio est spatialise dans le plan vertical, face a I’auditeur, dont les limites sont determinees par celles 
d’un ecran imaginaire de 2 x 1,5 m, a 1 m de distance de I’auditeur. Cela signifie que I’azimut est limite 
a rintervalle [ -45 ° ; 45 ° ] et I’elevation a I’intervalle [ -37 ° ; 37 ° ]. 
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pas sur le trajet du son direct (source grisee sur la figure 5.13.c), on observe la 
combinaison d’une exclusion (attenuant le son reflechi dans la salle on se situe 
I’auditeur) et d’une obstruction (assourdissant le son direct). On retiendra que 
dans tons les cas, I’auditeur pergoit une source (secondaire on non) a I’endroit on 
se trouve I’ouverture. 




Fig. 5.13 - Les effets environnementaux de I’API EAX 4.0 de Creative Labs : (a) Obs¬ 
truction provoquee par la presence d’un objet dans une salle, (b) Occlusion provoquee 
par une paroi, separant deux salles et (c) exclusion provoquee par une ouverture dans 
la paroi, a laquelle pent s’ajouter une obstruction si I’auditeur ne se trouve pas sur le 
trajet du son direct. 


En fait, lorsqu’il y a exclusion (5.13.c), I’auditeur n’entend pas uniquement le son 
direct. II est possible qu’il entende, dans la direction de I’ouverture, le son de la source, 
auquel se superpose la signature acoustique de la salle dans laquelle est emis ce son (on 
parle alors de reverberation locale, i.e. localisable dans I’espace, a la difference d’un 
champ diffus enveloppant). Ainsi, meme si VAdvanced AudioBIFS, permet de definir 
des zones presentant differentes signatures acoustiques, il n’offre pas la possibilite de 
spatialiser les effets de reverberations, pour le rendu de multiples environnements (on 
Multi-environment), comme le propose les dernieres versions de I’API EAX. II n’y a 
done aucun moyen d’indiquer a I’auditeur la presence d’un espace « acoustiquement dif¬ 
ferent », avant qu’il n’y penetre. L’interet de tels effets n’est done pas tant de permettre 
un rendu sonore plus realiste que d’offrir une representation plus lisible de I’espace 
sonore. II y a done, ici, un gain potentiel en terme d'utilisabilite des indices de la lo¬ 
calisation auditive. Ces exemples montrent, en effet, que la modalite sonore pent etre 
utilisee, d’une part, pour indiquer la direction d’une « sortie » dans une salle grace aux 
effets d’exclusion et, d’autre part, pour donner une indication de la spaciosite d’une 
salle voisine et eventuellement de sa position dans I’environnement (par la position de 









112 


Interface pour la navigation dans les environnements sonores 3D 


I’ouverture d’ou le son semble provenir). 

5.2.1.3 DirectiveSound vs. SurroundingSound 

D Advanced AudioBIFS est relativement restreint a une approche que I’on pourrait 
qualifiee de « centree sur I’objet », considerant qu’une source sonore est necessairement 
associee a un objet visuel (et potentiellement « visualisable ») dans la scene. Meme si 
cette approche, typique des applications de realite virtuelle, constitue sans aucun doute 
le moyen le plus realiste et le plus elabore pour le rendu des effets de spatialisation 
sonore, elle ne rend compte de la variete des contenus audio qui peuvent etre utilises 
lors de la creation d’une scene sonore. 

Dans un jeu, les sons peuvent avoir differentes fonctions, ce qui impose, on affran- 
chit, d’un certain nombre de contraintes en terme de creation de contenu, done de rendu 
sonore. En effet, outre les sons d’interface et les sons musicaux, on rencontre, d’apres 
Stockburger [StoOG], trois grandes categories de son : 

- (Les sons de parole) Ils sont lies a des personnages. La notion de directivite 
est d’autant plus importante qu’elle permet de savoir si les avatars font face, 
on non, an joueur (on plutot an point d’ecoute), lorsqu’ils ne sont pas visibles. 
D’apres Stockburger [StoOG] cela permet par exemple, d’exprimer Limminence de 
la menace que represente un ennemi que Ton ne pent voir. 

- (Les sons d’effet) Ils entretiennent par definition, un lien de causalite avec un 
objet visuel : le bruit de pas d’un adversaire, le bruit d’une bouteille qui roule par 
terre, celui d’une porte qui claque, etc. Ils sont dit acousmatiques lorsqu’ils sont 
hors-champ et que les sources qui les ont produites ne sont pas visualisees. Ils ont 
alors la capacite d’alerter le joueur et de favoriser la « conscience de situation »(ou 
« situationnal awarness »), particulierement en vue subjective. 

- (Les sons de zone) Ils sont attaches a un endroit dans I’environnement du jeu 
et le caracterisent. C’est une sorte de signature semantique® d’un niveau on d’une 
partie d’un niveau dans le jeu. Si le jeu se passe sur un bateau, on pent creer, 
par exemple, une premiere ambiance sonore caracterisant I’interieur (bruits metal- 
liques des machines, grincement de la coque, etc.) et une deuxieme caracterisant 
I’exterieur (le bruit du vent, des vagues frappant sur la coque, etc.). 

S’il n’existe pas veritablement de consensus reel sur une classification fonctionnelle 
des sons dans les jeux, le contraste entre les sons de parole on d’effet et les sons de 
zone est tout de meme symptomatique. En effet, ces derniers ne sont pas attaches a un 
objet en particulier, mais a une region de I’espace. Les sources qui les produisent ne sont 
pas visibles. Elies constituent, en quelque sorte, un horizon sonore, a I’instar des « Sky 
Boxes » (Figure 5.14), pour le rendu graphique, qui sont des cubes textures entourant 
la carte du jeu et permettant de creer un paysage de fagon simple et efficace {e.g. 
montagne, ciel, etc.). Ces sons de zones ont deja une histoire an cinema; Chion [Chi97] 

®par analogie avec le terme « signature acoustique », employe pour I’effet de salle 
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les nomme « sons-territoire » ou « sons-ambiant ». D’apres lui, ils sont caracterises par 
le fait qu’ils « enveloppent une scene (celle figuree a I’ecran) et habitent son espace, 
sans qu’ils soulevent la question obsedante de la localisation et de la visualisation de sa 
source » [Chi97]. 



(a) (b) 


Fig. 5.14 - Exemple de « Cube Map » (a), utilisee sous forme de « Sky Box » dans un 
jeu (b), pour creer un horizon. 


Meme si la fonction de ces sons est principalement ornementale, nous avons eu I’oc- 
casion de mentionner section 3.2.2, a quel point ils pouvaient etre importants pour la 
qualite pergue d’une scene sonore spatialisee, qu’ils soient la reproduction d’un paysage 
sonore reel, ou « construits de toute piece », a I’aide d’enregistrements eparses et/ou 
de sons de synthese. Or, bien qu’il soit possible de creer ces sons de zones, suivant une 
approche « centree sur I’objet », ce n’est pas un precede de creation tres « naturel », ni 
tres simple pour nombre de designers sonores^^. Or, en tant qu’horizons, ils ne sont pas 
accessibles an joueur (du moins, dans le contexte de I’interaction « courante »), done 
la position relative des evenements qu’ils reproduisent n’est pas amenee a etre modifiee 
de fagon interactive {i.e. en fonction de la position du point d’ecoute dans la scene); du 
moins, pas an sens on on I’entend pour les sons d’effet ou de parole. On pent done avoir 
recours a des precedes de creation de contenu plus classiques {i.e. utilisant les logiciels 
de montage et de mixage audio professionnels), puisqu’il importe pen que la configura¬ 
tion spatiale des sources sonores soit « figee » dans un fichier audio multicanal^^. 

Ainsi, un outil de creation de scene sonore spatialisee, se doit de prendre en compte 
deux approches, I’une, « centree sur I’objet », et I’autre, « centree sur le champ sonore ». 
C’est justement ce que propose la version 3 de V AudioBIFS [SS04], en ajoutant un noeud 
SurroundingSound, extension du noeud DirectiveSound, permettant d’integrer et 
de manipuler des flux audio multicanal (par exemple, an format Ambisonic Ordre 1). 

'^°Meme I’environnement ISACT de Creative, parmi les logiciels d’authoring les plus elabores, est loin 
d’avoir atteint le degre de sophistication des logiciels de montage et de mixage audio professionnels, 
tant du point de vue de son interface graphique que de ses fonctionnalites. 

^^voire bicanal, si Ton a recours a un ensemble de HRTF, pour une diffusion au casque {Binaural ou 
Virtual Surround) 
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Or, ces flux audio ne necessitant pas les memes transformations spatiales qu’un flux 
monophonique, I’interface du noeud SurroundingDound differe quelque peu de celle 
du noeud DirectiveSound. On remarque notamment la presence des champs orien¬ 
tation et distortionFactor, utilises pour I’application eventuelle d’une rotation et/ou 
d’une distorsion de perspective, en fonction des transformations que pent subir le point 
d’ecoute (Tableau 5.2). 


Champ 

Description 

intensity 

Ajuste le niveau global du champ sonore. Sa valeur, comprise 
entre 0.0 et 1.0 est un facteur qui est applique durant la lecture 
du flux audio. 

distance 

Decrit la fagon dont I’intensite du champ sonore decroit en fonc¬ 
tion de I’eloignement du point d’ecoute. La loi d’attenuation est 
la meme que celle definie pour le noeud DirectiveSound. Si 
distance vaut 0.0, aucune attenuation n’est appliquee 

location 

Determine la position du centre du champ sonore dans le systeme 
de coordonnee locale du SurroundingSound 

orientation 

Determine I’orientation du champ sonore dans la scene, par rap¬ 
port au systeme de coordonnee locale du SurroundingSound. 
Cela suppose I’application d’une transformation de rotation, 
lors de la phase (finale) de rendu. 

distortionFactor 

Determine I’ampleur de la distorsion angulaire appliquee au 
champ sonore lorsque le point d’ecoute s’eloigne du point de re¬ 
ference defini par le champ location. Cette distorsion suppose 
que les sources laterales du champ sonore {i.e. dans la direction 
orthogonale au deplacement du point d’ecoute) soient a la meme 
distance 1/distortionFactors du point de reference, de sorte 
qu’un petit deplacement d {e.g. en avant), produise une rotation 
des sources laterales 4> « tan (f> = dx distortionFactors. Si- 
multanement, la scene frontale est « dilatee » tandis que la scene 
arriere se « comprime » (Figure 5.15.c). 


Tab. 5.2 - Interface du noeud SurroundingDound, introduit dans la version 3 de 
VAudioBIFS [SS04] 


Ces deux transformations sont appliquables a un flux Ambisonic, ainsi qu’a tout 
autre flux multicanal. Cependant, seule I’implementation pour VAmbisonic d’ordre 1 
(dit B-Format) a ete proposee a la normalisation MPEG : 

- La rotation, illustree Figure 5.15.b, est assez triviale puisqu’elle n’implique que des 
formules de trigonometrie de base. D’apres Daniel [DanOl], la matrice de trans¬ 
formation appliquee est la suivante : 
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■ 1 0 o' 


■ W ' 

X' 

= 

0 cos 0 sin 0 


X 

Y' 


0 — sin 0 cos 0 


Y 


- La distorsion de perspective, illustree Figure 5.15.C, est une application de la 
« transformation de Lorentz » (introduite par Gerzon [Ger92b]), avec un para- 
metre A, qui pent etre defini par A = exp(—ad), on d est la distance entre le 
point d’ecoute et le point de reference (location), et a, le parametre distor- 
tionFactor (Tableau 5.2). D’apres Daniel [DanOl], la matrice de transformation 
appliquee est la suivante : 



Fig. 5.15 - Illustration des transformations du champ sonore original (a) : champ sonore 
apres une rotation (b) et apres une distorsion de perspective (b). 


Gependant, I’utilisation de I’encodage Ambisonic pose quelques problemes. D’une 
part, on ne salt pas compressor ce format, a la difference d’un encodage plus simple, 
utilisant notamment une loi de panoramisation d’amplitude. De plus, comme le souligne 
Daniel [DanOl], « I’extension de la ’transformation de Lorentz’ aux ordres superieurs 
n’est pas possible avec la loi de distorsion angulaire definie, sauf a deteriorer les caracte- 
ristiques d’onde plane ». L’utilisation d’un encodage spatial plus simple, tel que la pano¬ 
ramisation par paires, semble done plus appropriee, dans I’etat actuel des recherches^^, 
ne serait-ce que par sa plus grande flexibilite. Gependant, la forme que doivent prendre 
concretement les transformations de rotation et de distorsion de perspective^ dans ce cas 
precis, n’a jamais ete veritablement etablie. 

exists des solutions au probleme de la distorsion aux ordres superieurs, mais elles impliquent un 
certain nombre de manipulations, qui n’ont pas encore ete tout a fait formalisees. 
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5.2.2 La gestion du rendu sonore 

5.2.2.1 La gestion des ressources du systeme 

Lorsque nous avons aborde la problematique des interfaces zoomables, section 5.1.2.2, 
nous avons eu I’occasion de souligner qu’un changement d’echelle de la representation 
graphique devait etre accompagne d’une modification du niveau de detail des objets, 
afin de conserver un « cout » constant des algorithmes de rendu. Cependant, I’opti- 
misation des ressources systeme n’est pas I’apanage des interfaces zoomables, mais de 
toute application temps reel. Or, dans les jeux video, sur ordinateur grand public on 
sur console, la contrainte la plus forte, en termes de spatialisation sonore, semble etre le 
nombre de « canaux » [i.e. le nombre de sources sonores virtuelles) qui sont traites par le 
processeur de traitement de signal (on DSP), present sur la carte son. En effet, pour la 
synthese binaurale (an casque), la charge CPU pent augmenter de fagon consequente, si 
les nombreuses convolutions avec les HRTF ne sont pas realisees par un co-processeur^^. 
Supposons alors, que Ton dispose de N canaux (128 sur les cartes son les plus recentes), 
la methode d’optimisation la plus courante, semble-t-il, consiste a ne trailer que les 
N sources les plus proches du point d’ecoute^^. Or, une telle methode « aveugle » ne 
constitue pas, a proprement parler, une optimisation des ressources systeme, puisque la 
reduction du niveau de detail n’est pas guidee par une volonte de limiter les degrada¬ 
tions pergues, ce qui n’est possible que par la prise en compte des capacites perceptives 
et cognitives de I’auditeur. 

Tout d’abord, etant donne que le systeme auditif ne beneficie que d’un faible pouvoir 
de resolution spatiale, et qu’il ne semble pas accorder la priorite absolue aux indices de 
la localisation auditive pour I’organisation perceptive, on pent supposer une certaine to¬ 
lerance vis-a-vis de la delocalisation d’une source sonore^^. Ainsi, differentes techniques 
de regroupement de sources (on « clustering ») ont ete mises an point pour remplacer 
un certain nombre de sources ponctuelles par une unique source-imposteur. Cela permet 
de faire I’economie d’autant de « canaux hardware » pour le traitement des effets de 
spatialisation. Or, les precedes de « clustering » peuvent etre divises en deux categories : 
le « clustering a grille fixe » et le « clustering adaptatif ». 

Comme le souligne Tsingos et al.[TGD03], le probleme majeur du « clustering a grille 
fixe » est qu’il est impossible de satisfaire un critere donne de nombre de cluster non vide 
puisqu’il depend de la repartition spatiale des sources sonores (Figures 5.16.a et 5.16.b). 
En outre cette methode est sous-optimale puisqu’il pent arriver que toutes les sources 

^^Chaque source necessite quatre convolutions, puisque pour un azimut donne on realise I’interpola- 
tion entre deux couples de fonctions de transfert. Par exemple, dans le Spat~, les HRTF min utilisees 
pour le format binaural sont implementees sous la forme de filtres RII d’ordre 12 (25 coefficients). 
Chaque source necessite done 100 addition/multiplication. Le format original des HRTFmixte, quant 
a lui, est sous la forme de filtres RIF de 512 coefficients, soit 2000 addition/multiplication pour une 
source. 

^'^Un tel schema de priorite est mis en oeuvre, notamment, par les API DirectSoundSD et FMOD. 

^®Sans compter que la visualisation de la source peut contribuer a la tolerance de la delocalisation 
(cf. « effet du ventriloque », section 2.2.2) 
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soient positionnees dans un meme « cluster », alors que les ressources sont suffisantes 
pour les trailer independamment. D’apres Tsingos et al.[TGD03], une methode efficace 
et simple consiste, par analogie avec le « Virtual Surround^® » utilise pour le rendu au 
casque de contenus audio 5.1, a placer un cercle de « haut-parleurs virtuels » autour du 
point d’ecoute (Figures 5.16.c). Si I’on considere une loi de panoramisation par paires, 
chaque source sera alors positionnee virtuellement a I’aide d’un unique couple de haut- 
parleurs. Ces derniers se substituant litteralement aux sources sonores, le nombre de 
« canaux hardware » utilises pour le traitement des effets de spatialisation est determine 
par le nombre de haut-parleurs virtuels. C’est clairement une approche « centree sur le 
champ sonore », telle que nous I’avons definie precedemment. 




Fig. 5.16 Les differentes approches du « clustering » de sources sonores a grille fixe : 
(a) a I’aide d’une grille fixe uniforme, (b) a I’aide d’une grille fixe non-uniforme et (c) a 
I’aide d’un cercle de haut-parleurs virtuels (d’apres Tsingos et al. [TGD03]). 


A la difference des methodes precedentes, le « clustering adaptatif » (Figure 5.17. a), 
retenu par Tsingos et al. [TGD03] [TD04] est optimal puisqu’il permet par subdivi¬ 
sion iterative de la grille, de respecter la contrainte d’un nombre determine de clusters 
non-vides. Gomme il est illustre Figure 5.17.b et Figure 5.17.C, la taille et la position 
des « clusters » peuvent ainsi etre calculees dynamiquement, en fonction de la posi¬ 
tion du point d’ecoute. Enfin, pour chaque groupe de sources, il faut encore determiner 
quelles sont les sources qui contribueront a la source-imposteur. Pour resumer la me¬ 
thode employee par Tsingos et al. [TGD03] [TD04], un ordre de priorite est evalue 
dynamiquement pour chaque source, grace a un modele simple de some, en prenant en 
compte non seulement I’attenuation du son en fonction de la distance, mais aussi les 
phenomenes de masquage. Un algorithme dit de « perceptual culling » additionne alors 
les sources sonores par ordre de priorite, jusqu’a ce que la source-imposteur masque la 
totalite des sources restantes. 


'^^Cette methode consiste a simuler, par filtrage binaural, I’effet de chaque haut-parleur, considere 
comme une source virtuelle disposee autour de I’auditeur 
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(b) 


(c) 


Fig. 5.17 - (a) Illustration du principe de « clustering adaptatif » (d’apres Tsingos 
et al. [TD04]). Dans ctiaque « cluster », de taille variable, une source-imposteur est 
substituee a I’ensemble des sources. Les figures (b) et (c) illustrent I’adaptation du 
« clustering » (boites englobantes en bleu), en function de la position du point d’ecoute 
(en rouge). 


Une telle methode, meme si elle permet de reduire le nombre de sources sans qu’au- 
cun artefact ne soit a priori audible, est malgre tout critiquable. En effet, comme nous 
I’avons enonce, la contrainte la plus forte pour I’optimisation du rendu sonore est, ici, 
le nombre de « canaux hardware » utilises. Cela signifie que la convolution du signal 
avec les HRTF est considere comme le traitement le plus « couteux». Cependant, si 
les flux audio sont compresses, il semblerait que ce soient plutot les algorithmes de 
decompression qui necessitent la plus grande charge de calcul. Ainsi, etant donne la 
grande efficacite des algorithmes de synthese binaurale a I’heure actuelle, il n’est pas 
dit que le clustering et le perceptual culling constituent veritablement la solution la plus 
econome dans tons les cas de figure. En outre, ils necessitent eux-memes un nombre 
non negligeable d’operations arithmetiques et perdent quelque peu de leur interet pour 
une spatialisation sur haut-parleurs. Ils n’en constituent pas moins une technique tres 
elegante de gestion des ressources systeme, dont I’efficacite est incontestable pour une 
approche « centree sur I’objet » et un rendu binaural des effets de spatialisation. Toute- 
fois, nous avons eu I’occasion de souligner section 5.2.1.3 qu’une telle approche n’etait 
pas pertinente pour tous les types de son que Ton pouvait rencontrer dans un jeu. No- 
tamment, les sons de zone (ou sons d’ambiance), qui peuvent monopoliser a eux seuls les 
ressources allouees au moteur de rendu sonore, si I’on n’y prend garde, s’accommodent 
tout a fait d’une approche « centree sur le champ sonore », fort peu couteuse en com- 
paraison d’un clustering systematique. 

En conclusion, il parait plus profitable de minimiser le nombre de flux audio qui 
doivent etre decodes, que de minimiser le nombre de « canaux hardware » utilises pour 
les effets de spatialisation. Dans ces conditions, il est preferable d’utiliser judicieuse- 
ment un certain nombre de sons multicanal (ou SurroundingSound) lorsqu’ils peuvent 
se substituer a une multitude de sons monophoniques (ou Directivesound) . D’ailleurs, 
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il pourrait etre pertinent d’avoir reconrs a nn encodage HOA (ponr High Order Am- 
bisonic), pnisqne ses proprietes de « scalabilite » en font le candidat ideal ponr nne 
telle approche de la gestion dn nivean de detail sonore. En effet, la spatialisation a 
nn ordre inferienr consisterait alors simplement a decoder moins de composantes, ce 
qni permettrait de rednire d’antant le flnx de donnees andio. Cependant comme nons 
I’avons mentionne precedemment {section 5.2.1.3), I’ntilisation d’nn encodage spatial 
pins simple, tel qne la panoramisation par paires est pins realiste dans I’etat actnel des 
recherches. 

5.2.2.2 La gestion des ressources perceptives et cognitives de I’utilisateur 

A snpposer qne I’eqnivalent sonore de I’operation de zoom soit nne modification de 
I’etendne dn champ de perception^^ dans tontes les directions de I’espace, nons avons 
vn precedemment nn certain nombre de solntions ponr rednire le nivean de detail, snite 
a I’angmentation dn nombre de sonrces sonores andibles dans la scene. En revanche, il 
n’existe pas, a notre connaissance, de travanx anxqnels faire reference ponr determiner 
qnel ponrrait etre I’eqnivalent sonore d’nn zoom semantique. On pent tontefois s’inspirer 
de cenx realises en visnalisation d’information, pnisqne les concepts introdnits ne sont 
pas necessairement tribntaires de la modalite consideree. 


Rendu Gestion du niveau de detail 



Fig. 5.18 - Interface ntilisatenr de I’application DataSpalsh de Woodrnff et al. [WLS98] : 
(a) representation des donnees georeferencees ponr nne elevation maximnm (petite 
echelle) et (b) ponr nne elevation pins faible (grande echelle). 


L’application DataSplah, congne par Woodrnff et al. [WLS98], illnstre parfaitement 
les problematiqnes liees a la conception d’nne interface zoomable (dite anssi multi¬ 
resolution) ponr la representation de donnees georeferencees. Dans le cas present, il 
s’agit de donnees concernant differentes villes des Etats-Unis. Par exemple, a I’aide 
de cette application on pent representer chaqne ville snr nne carte par nn cercle dont 
le rayon est proportionnel a la taille de la popnlation on a tont antre information la 

^^Nous appelons champ de perception, la surface ou le volume a I’interieur duquel un objet ou un 
son est effectivement rendu. 
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concernant. Or, a une petite echelle, il n’est pas possible que toutes les villes soient af- 
fichees simultanement. Comme on pent le remarquer sur la figure 5.18, I’interface offre 
alors a I’utilisateur la possibilite de controler les intervalles d’echelles (on d’elevation) 
a I’interieur desquelles une categorie d’objet (ou couche) est affichee. L’organisation en 
couches est fondamentale pour le zoom semantique puisque tous les objets n’ont pas la 
meme importance ou priorite. Cela permet notamment d’afficher d’abord {i.e. a plus 
petite echelle) les informations qui interessent I’utilisateur {e.g. la taille des villes), et 
seulement ensuite {i.e. a plus grande echelle), des informations complementaires {e.g. 
le nom des villes) ou meme des elements de decors {e.g. des elements de geographie 
physique). Dans I’exemple illustre Figure 5.18, six couches d’objets ont ete definies : 
la premiere correspond an contour du pays et la deuxieme aux contours des Etats. On 
remarque que ces deux couches sont mutuellement exclusives {i.e. elles ne sont jamais 
representees simultanement). Les quatre couches suivantes representent differentes don- 
nees concernant les villes : la troisieme couche contient les villes dont la population est 
la plus importante, la quatrieme, cedes dont la population est la moins importante, etc. 

Or comme le souligne Woodruff et al. [WLS98], la gestion du zoom semantique n’est 
pas satisfaisante en I’etat. En effet, suite a une evaluation de I’interface, il s’est avere 
que les utilisateurs n’ont pas vraiment reussi a creer des representations muti-resolution 
satisfaisantes en ne modifiant que les intervalles d’echelles a I’interieur desquels etaient 
affiches les objets. Les auteurs proposent alors un certain nombre de transformations 
permettant de reduire la quantite d’informations transmises par la representation vi- 
suelle. On remarquera particulierement que ces transformations s’appliquent, soit aux 
donnees georeferencees, soit an rendu visuel des objets. En outre, elles n’ont pas neces- 
sairement le meme impact sur la « densite de I’information transmise ». Void quelques 
exemples de transformations, qui ont ete proposes : 

- Exemples de transformations qui s’appliquent aux donnees : 


Transformat ion 

Exemple 

Impact sur la densite d’in- 
formation 

Selectionner 

N’afficher que les villes 
dont la population > n 

Reduit le nombre d’objets 

Agreger 

Regrouper les villes par 
etats 

Reduit le nombre d’objets 

Re-classifier 

Assigner des tranehes de 
population 

Reduit le nombre de tallies 
possibles 
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- Exemples de transformations qui s’appliquent an rendu : 


Transformation 

Exemple 

Impact sur la densite d’in¬ 
formation 

Changer de forme 

Changer un cercle en tri¬ 
angle 

reduit (potentiellement) le 
nombre de pixels utilises (on 
Data-ink ratio) 

Changer de taille 

Diminuer le rayon des 
cercles 

reduit le nombre de pixels uti¬ 
lises (on Data-ink ratio) 

Supprimer I’asso- 
ciation avec un at- 
tribut 

Dissocier la taille des 
cercles et celle de la 
population 

Reduit la densite 


Les transformations qui s’appliquent aux donnees sont done communes aux mo- 
dalites visuelles et sonores. Quant a cedes qui s’appliquent an rendu visuel, elles sont 
fondees sur la manipulation des attributs perceptifs des objets visuels introduits par 
Bertin [Ber83] pour la vision : position, taille, intensite, texture, couleur, orientation, 
et forme. Ainsi, si Ton utilise un precede de sonification pour representer les donnees, 
il est possible par analogie d’utiliser les attributs perceptifs du son, tels que la hauteur, 
I’intensite, le timbre, la duree, etc. Par exemple, comme nous I’avons vu section 4-3.3.1, 
Zaho et al. [ZPSD04] out utilise la hauteur d’une note pour la representation sonore 
spatialisee de donnees georeferencees. Dans ce cas, une transformation s’appliquant an 
rendu sonore pourrait etre la diminution on I’augmentation des intervalles de frequences 
(on de hauteur) associes a la valeur d’une donnee. 

5.2.2.3 Cadre de reference pour la conception des systemes de representa¬ 
tion sonore d’information 

Huai-Chi et Riedl [CR98] proposent un modele par couches du processus de visua¬ 
lisation de donnees, nomme « Data State Reference Model », ayant recours a plusieurs 
transformations successives (figure 5.19) : 

- Tout d’abord, les donnees a representer sont analysees, afin d’en extraire I’infor- 
mation utile du point de vue de rutilisateur et/ou de la tache a accomplir. Dans 
I’exemple precedent, on pent ainsi determiner, a partir des donnees concernant la 
taille de la population des villes, celles dont la population est la plus grande, on 
respectivement, la plus petite. 

- Ces meta-donnees, constituant un nouvel espace dit d’ Abstraction analytique, 
sont ensuite mises en correspondance avec I’espace dit d’ Abstraction de vi¬ 
sualisation, fonde sur les capacites perceptives et cognitives de rutilisateur. Par 
exemple, la representation est constituee de differentes couches d’objets, de forme, 
de taille et de couleur variables {e.g. des cercles de couleur), positionnees dans un 
espace cartesien, analogue a I’espace reel {e.g. les contours d’un pays et la position 
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des villes qui s’y trouvent). 

- Les donnees de cet espace {e.g. la taille, la couleur, la forme et la position des objets 
dans I’espace) sont alors exprimees sous forme de signaux pour I’affichage, confor- 
mement aux modeles definis par les donnees de I’espace de rendu graphique 
{e.g. geometrie projective, modele d’illumination, proprietes des materiaux, etc.). 



Fig. 5.19 - Modele « Data State Reference »de Huai-Chi et Riedl[CR98] adapte par 
Daude et Niguay [DN03] 


Ainsi, I’Abstraction analytique determine en quelque sorte « ce qui doit etre re¬ 
presente » et conditionne en grande partie I’adequation de la representation avec la 
tache que doit accomplir I’utilisateur. L’Abstraction de visualisation (on de sonifica- 
tion), quant a elle, determine comment les donnees de I’Abstraction analytique seront 
representees. Elle conditionne done plutot I’adequation de la representation avec les 
capacites perceptives et cognitives de I’utilisateur. On constate d’ailleurs certaines si¬ 
militudes entre cette approche et celle de Gaver [Gav95] {section 4-1.3), qui preconise 
elle aussi un mapping par etape, pour la construction de representations sonores (on 
auditory icons) : 

- le mapping conceptuel, permettant de faire le lien entre les capacites fonctionnelles 
propres aux logiciels (un evenement an sein du systeme) et une analogic du monde 
reel (un evenement du monde reel). 

- le mapping perceptif, permettant de faire le lien entre I’analogie du monde reel 
et les capacites representationnelles propres aux dispositifs de rendu (visuels on 
sonores) 
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Pour les auditory icons de Gaver, comme pour le modele de reference de Huai-Chi 
et Riedl, ce n’est pas taut le choix du son que le choix de V evenement (ou de V analogic 
du monde reel), qui est important. Par exemple, comme nous I’avons remarque section 
5.1.1.1, pour qui vent concevoir un dispositif sonore d’assistance a la navigation pour 
les aveugles et mal-voyants, le type de son utilise (parole, bruit large bande, son pur 
module en frequence, etc.) n’est pas aussi critique que la methode employee pour repre¬ 
senter la distance d’un point de navigation cible. D’ailleurs, avant cela, encore faut-il 
que le systeme soit capable de « positionner » les points de navigation convenablement 
a une intersection ou un virage, pour indiquer un ctiangement de direction. Ce dernier 
doit done, d’une part, connaitre I’emplacement de la destination finale vers laquelle il 
guide I’utilisateur, mais aussi connaitre le chemin qu’il faut emprunter pour s’y rendre. 
Ainsi, comme le souligne Hu et Li [HL04], la conception d’un Systeme d’Information 
Geograptiique (CIS) requiert un modele de semantique de I’environnement, combinant 
les aspects geometriques {e.g. les emplacements des differents sites accessibles a I’utilisa- 
teur) et symboliques {e.g. un graphe extrait du reseau de route, permettant de calculer 
des ctiemins). Dans un jeu, par exemple, un tel modele permet au systeme d’offrir aux 
personnages non-joueurs la capacite de « raisonner » sur leur environnement Cette 
forme primitive de « raisonnement » semble aussi etre indispensable pour la gestion 
des interactions dans un environnement virtuel. Si Ton prend I’exemple de la norme 
MPEG-4, le noeud AcousticScene, introduit dans la version 2 de VAudioBIFS {sec¬ 
tion 5.2.1.1), permet de detecter la presence du point d’ecoute dans une certaine zone de 
renvironnement et d’adapter les parametres de I’effet de salle. Les informations relatives 
au partitionnement de I’espace en zones adjacentes est un autre exemple d’Abstraction 
analytique. 

Enfin, pour achever cette description du modele de reference de Huai-Chi et Riedl, 
on remarquera que chaque espace de donnees (Abstraction Analytique, Abstraction 
de Representation et Rendu) possede ses propres operateurs, qui n’ont pas la meme 
portee en termes d’interaction. Aux extremes, on distinguera les operateurs purement 
« valeur » {e.g. ajouter un ensemble de donnees a I’ancien) des operateurs purement 
« rendu » {e.g. rotation de I’angle de vue ou d’ecoute). Nous avons donne un exemple 
d’une telle distinction pour le zoom semantique dans la section precedente. 

Daude et Niguay [DN03] ont adapte ce modele a la representation sonore et par- 
ticulierement aux processus de sonification (Figure 5.19). Le modele de Huai-Chi et 
Riedl, separant clairement les traitements relatifs aux donnees et au rendu, celui de 
Daude et Niguay [DN03] ne se distingue que par I’Abstraction de sonification, rem- 
plagant 1’Abstraction de visualisation, et par le rendu sonore, remplagant le rendu 
graphique. Nesbit [NesOl], quant a lui, definit un modele general de I’abstraction de so¬ 
nification/visualisation commun aux representations sonores et visuelles (Figure 5.20). 


^®Par exemple, sachant que I’avatar du joueur est dans telle salle, et que son adversaire est dans telle 
autre, quel chemin ce dernier doit-il emprunter pour le rejoindre et I’affronter ? 
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On pent mettre en relation la definition des elements constitutifs (on classes) de ce 
modele avec la definition des noends d’un langage de description de scene, tel qne le 
BIFS et en particulier V audioBIFS de la norme MPEG-4 : 



Modifie 


Fig. 5.20 - Modele UML de I’Abstraction de visualisation/sonification, decrit par 
Nesbit [NesOl], ponr la representation d’information 


- Le Substrat spatial decrit I’espace perceptif dans lequel vont etre representees 
les donnees. II definit notamment la « dimensionnalite » de la representation (ID, 
2D, 3D) et le type de point d’ecoute {e.g. egocentrique on allocentriqne). Les 
noends Sound2D, Sound, DirectiveSound et SurroundingSound, imposent 
typiqnement differents types de snbstrats spatianx. 

- Les marqueurs sont les evenements sonores proprement dits. Concretement, ce 
sont les flnx andio qni seront spatialises, dans les termes definis par le substrat 
spatial. Cela correspond typiqnement an champ source des noeuds audio, dans le 
graphe principal d’une scene BIFS. 

- Les proprietes des marqueurs, pourraient etre definies comme les dimensions, qui 
permettent de caracteriser les qualites representationnelles des marqueurs, consi- 
deres individuellement. II pent aussi bien s’agir de leur « nature » {e.g. auditory 
icons, earcons, parole, etc.), qne de leurs attributs perceptifs {e.g. timbre, hauteur, 
etc). Cependant, comme nous avons pu nous en rendre compte an chapitre 4, c’est 
une notion tres complexe et difficilement accessible a la formalisation objet, requise 
pour la conception des interfaces^®. En termes de description de scene sonore, on 
pent se permettre d’etre plus pragmatique. Disons qu’il s’agit, « an plus bas ni¬ 
veau », de I’ensemble des parametres de controle permettant de faire varier Tune 
des « qualites » quelconque du flux audio final, de la lecture/arret d’un fichier 
audio on MIDI, a la modification d’un parametre de controle d’un effet, on d’un 
modele de synthese sonore. On trouve dans le langage audioBIFS, combine an lan¬ 
gage SAOL (pour Structured Audio Orchestra Language), [Sch99], I’ensemble des 

^®Du moins est-ce le cas, dans le cadre de cette etude. Des travaux, tels que ceux de Niguay [Nig94], ont 
bien conduit, semble-t-il, a une formalisation des « unites informationnelles » d’un systeme multimodal. 
Ce formalisme n’est qu’une partie d’un vaste ensemble, visant a proposer une methode de classification 
des systemes qui s’appuie sur les notions de langages et de dispositifs du modele dit « Pipe-lines ». 
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outils necessaires a I’implementation des techniques rencontrees dans le domaine 
des Auditory Display {auditory icons, earcons, mapping de parametres, etc.). 

- Enfin, I’encodage temporel determine le declenchement des evenements sonores, 
leur synchronisation, leur duree, leur mouvement dans I’espace, etc. C’est I’un des 
elements les plus importants dans le contexte d’une application interactive, parti- 
culierement, si elle fait usage de la modalite sonore. Cependant, c’est sans doute 
I’un des plus mal defini dans la norme MPEG-4- Le format de description inter¬ 
active XMF de riASIG (pour Interactive Audio Special Interest Group) semble 
plus pertinent, ayant ete congu specifiquement pour satisfaire aux besoins des jeux 
video en termes de creation de contenu audio interactifs [Law03] [Gri03]. 

Ainsi les modeles presentes ici et la semantique du langage de description de scene 
DIES nous offrent bien un cadre de reference pour la conception des systemes de re¬ 
presentation sonore d’informations. G’est sur celui-ci, et en particulier sur la notion 
d’Abstraction analytique, que nous nous appuierons pour definir 1’architecture d’une 
interface de navigation dans un environnement sonore 3D. 

5.3 Conclusion 

La perspective de I’utilisateur 

En resume, nous avons mis en evidence les resultats suivants : 

- La parole pose quelques problemes d'utilisabilite pour une interface d’assistance 
a la navigation. 

- Pour une navigation exclusivement auditive, le type de son utilise n’est pas aussi 
critique que la methode employee pour indiquer la distance d’un point de naviga¬ 
tion intermediaire. 

- Dans un environnement virtuel, la navigation est realisee plus efficacement lors- 
qu’un utilisateur pent mettre a profit, non seulement les indices visuels, mais aussi 
les indices sonores. 

- Une strategie de navigation audiovisuelle consiste a utiliser les indices sonores, 
dans un premier temps, pour determiner la direction globale de la cible et les 
indices visuels seulement pour I’approche finale. 

- La presence d’obstacles reduit considerablement I’information disponible sur I’en- 
vironnement et, en consequence, limite la capacite d’un individu a raisonner sur 
la position relative des « objets » qui s’y trouvent. 

- D’apres le modele LRS, un individu acquiert tout d’abord une connaissance des 
points de repere (on landmark knowledge), puis une connaissance des itineraires 
(on route knowledge) et enfin une connaissance de la configuration (on survey 
knowledge). 

- On pent distinguer trois plans dans un paysage sonore : les empreintes (on sound- 
mark), objets sonores identifiables, emergeant d’un premier plan sonore (composes 

evenements), qui se detachent eux-meme de la tonalite (on fond sonore). 
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- Dans un jeu, lorsque le point de vue est subjectif, le caractere omnidirectionnel 
du point d’ecoute offre I’opportunite de combler le manque d’information contex- 
tuelle sur I’espace et d’augmenter la « conscience de situation » (on « situational 
awareness ») du joueur. 

- An cinema, comme dans les jeux, il semble impossible d’etablir un rapport harmo- 
nieux entre les messages visuels et sonores si I’on s’en tient a placer le microphone 
et la camera d’un meme point de vue « objectif ». 

- Un dispositif sonore globalement de type « perspective allocentrique » {i.e. ob¬ 
jective) conduit a une dissociation (a sens unique) du point de vue et du point 
d’ecoute, entre la place objective de I’observateur devant la scene, et la position 
subjective que le son invite a prendre. 

- An cinema, le decrochement spatial entre le point de vue et le point d’ecoute 
permet de situer librement les personnages dans I’espace, grace a la camera, tout 
en maintenant avec eux, par la voix, le lien de I’attention et de I’identification. 

- Pour un navigation « en survol », le zoom de la camera pause certains problemes 
d’utilisabilite, tant du point de vue de rutilisateur que de la conception du sys- 
teme. Une augmentation de I’echelle augmente le nombre d’objets perceptibles, 
ce qui conduit a une surcharge des algorithmes de rendu et a une diminution la 
lisibilite de la representation. Reciproquement, une reduction de I’echelle conduit 
a une representation plus lisible, mais a une perte d’information sur le contexte 
spatial. 

Nous en avons alors deduit les conclusions suivantes : 

- La lisibilite d’un paysage sonore semble pouvoir s’evaluer a I’aune de I’efficacite 
de Leconte selective, dont est tributaire la capacite d’un auditeur a qualifier et 
identifier les evenements qui le composent. 

- Certaines empreintes (on soundmark) d’un paysage sonore peuvent jouer un role 
equivalent on complementaire aux points de repere visuels (on landmark). 

- L’espace sonore semble avoir un caractere fondamentalement egocentrique. En 
effet, la perception subjective {i.e. Lutilisateur pergoit « de I’interieur » les ob- 
jets d’un environnement sonore) sied bien aux qualites omnidirectionnelles de la 
modalite auditive. 

- Afin qu’une interface zoomable soit utilisable, tant du point de vue de sa concep¬ 
tion, que de son utilisation, il est necessaire d’optimiser non seulement la charge 
des algorithmes de rendu {zoom geometrique), mais aussi la quantite d’information 
transmise {zoom semantique). 

- Dans une interface zoomable, la modalite sonore est en mesure de combler effica- 
cement les lacunes de la modalite visuelle. A grande echelle, la modalite auditive 
pent representer le contexte (spatial), alors que la modalite visuelle est contrainte 
a la representation du focus (spatial). Reciproquement, a petite echelle, la moda¬ 
lite auditive pent representer le focus, alors que la modalite visuelle est contrainte 
a la representation du contexte. 
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La perspective du concepteur de logiciels 

En resume, nous avons mis en evidences les resultats suivants : 

- Un outil de creation d’environnement sonore 3D se doit de prendre en compte 
deux approches, I’une, « centree sur I’objet », et I’autre, « centree sur le champ 
sonore ». Ces deux approches sont implementees respectivement, dans la versions 
3 de I’AudioBIFS, par les noeuds Directivesound (flux monophoniques spatialises 
individuellement) et SurroundingSound (flux multicanal « positionnables »). 

- Dans un jeu, on retrouve le contraste entre les approches DirectiveSound et Sur¬ 
roundingSound entre les sons de parole et les sons d’effet, d’une part, et les sons 
de zone, d’autre part. Les premiers sont attaches a un objet dans la scene, loca- 
lisable precisement et potentiellement « visualisable ». Les seconds enveloppent 
la scene (celle flguree a I’ecran) et habitent son espace, sans qu’ils soulevent la 
question obsedante de la localisation et de la visualisation des sources. 

- Pour que les SurroundingSound soient « positionnables », il est necessaire de leur 
appliquer des transformations de rotation et de distorsion de perspective. Ces deux 
transformations sont appliquables a un flux encode au format Ambisonic d’ordre 
1 (B-format). 

- L’utilisation de I’encodage Ambisonic pose quelques problemes pour I’implemen- 
tation des SurroundingSound : on ne sait pas compressor ce format et la distorsion 
de perspective n’est pas appliquable aux ordre superieurs. 

- Sur ordinateur grand public ou sur console, la contrainte la plus forte que se 
donne les concepteurs de jeu, en termes de spatialisation sonore, est le nombre de 
« canaux hardware » {i.e. le nombre de sources sonores virtuelles) qui sont traites 
par le co-processeur de la carte son. 

- Le modele « Data State Reference » propose d’introduire une couche abstraite 
de donnees, faisant I’interface entre deux domaines de connaissances a priori dis¬ 
joints : celui de I’information (les donnees « brutes ») et la representation que I’on 
en donne (graphique et/ou sonore). 

- La conception d’un Systeme d’Information Geographique (CIS) requiert un mo¬ 
dele de semantique de I’environnement, combinant, d’une part, les aspects geome- 
triques et symboliques. 

- Dans le modele « Data State Reference », chaque espace de donnees (Abstrac¬ 
tion Analytique, Abstraction de Representation et Rendu) possede ses propres 
operateurs, qui n’ont pas la meme portee en termes d’interaction. Aux extremes, 
on distinguera les operateurs purement « valeur » {e.g. ajouter un ensemble de 
donnees a I’ancien) des operateurs purement « rendu » {e.g. rotation de Tangle de 
vue ou du point d’ecoute). 

Nous en avons alors deduit les conclusions suivantes : 

- Dans I’etat actuel des recherches, I’utilisation de la panoramisation par paires est 
plus appropriee pour Timplementation des SurroundingSound, notamment parce- 
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qu’il est possible de compresser de tels flux audio multicanal. 

II par ait plus profitable de minimiser le nombre de flux audio qui doivent etre 
decompresses, que de minimiser le nombre de « canaux hardware » utilises pour 
les effets de spatialisation. Dans ces conditions, il est preferable d’utiliser judicieu- 
sement un nombre limite de Surrounding Sound, lorsqu’ils peuvent se substituer a 
une multitude Directivesound. 

Les proprietes de « scalabilite » de I’encodage HOA (pour High Order Ambisonic) 
en font le candidat ideal pour une telle approche de la gestion du niveau de detail 
sonore. Cependant, I’utilisation de la panoramisation par paires est plus realiste 
a I’heure actuelle. 

On pent mettre en relation la definition des elements constitutifs (ou classes) 
du modele « Data State Reference », avec la definition des noeuds d’un langage 
de description de scene, tel que BIFS et en particulier I’audioBIFS de la norme 
MPEG-4. 

Un modele de semantique permet a un systeme de raisonner sur I’environnement 
virtuel. C’est un element essentiel de la gestion des interactions. 





Chapitre 6 

Conclusion 


En conclusion du Chapitre 4 nous avons juge qu’il etait plus pertinent d’approfon- 
dir I’usage de la spatialisation sonore dans le cadre d’interactions integrees (description 
dynamique des systemes semiotiques), soit une signification qui n’est pas necessaire- 
ment donnee, mais se construit avec I’experience, dans le temps et I’espace. Cela nous 
a permis de justifier la restriction du cadre de nos travaux de recherche a la conception 
d’espaces sonores navigables, donnant acces a une connaissance de I’espace (« On? ») 
et des informations dont il est le support structurel (« Quoi? »). 


Prenant le parti d’un environnement virtuel dit faiblement immersif, nous assumons 
la presence du « cadre » on de la « fenetre » qui constitue, par I’emploi de la metaphore 
de la camera, I’un des paradigmes essentiels des representations visuelles. Ainsi, puis- 
qu’il est entendu que la vision est consideree comme la modalite la plus performante 
pour I’acquisition de connaissances spatiales, nous proposons maintenant de structurer 
notre etude selon les differentes perspectives qu’offre le point de vue sur I’environnement. 
Or, des perspectives que nous avons presentees section 5.1.2.1, il en est ressorti deux 
types de locomotion : 

- une locomotion pedestre, en reference aux jeux de type FPS (pour First Person 
Shooter) qui se « developpent » essentiellement dans le plan horizontal. Meme s’il 
semble le plus naturel et le plus intuitif, c’est le mode de perception visuelle qui 
offre le moins d’informations sur le contexte spatial du jeu. 

- une locomotion en survol, en reference aux jeux de guerre et de strategie, pouvant 
offrir an joueur, a I’instar d’une carte, une vue d’ensemble sur I’environnement. 
En plus des translations dans le plan horizontal (pan), il est possible de modifier 
I’echelle de la representation visuelle en deplagant la camera verticalement (zoom), 
pour beneficier d’une vue plus on moins detaillee. Cependant, une augmentation 
de I’echelle se fera toujours an detriment du contexte spatial et, reciproquement, 
une diminution an detriment du niveau de detail de la representation. 
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Conclusion 


Ces deux modes d’acquisition visuelle constituent deux contextes d’usage, soit deux 
ensembles de problematiques que nous allons traiter separement. Nous verrons que les 
deux etudes auxquelles conduisent ces problematiques ne prennent pas en considera¬ 
tion, dans les memes proportions, la perspective de I’utilisateur et celle du concepteur 
de logiciel. 


Conception et evaluation d’un dispositif sonore spatialise, 
pour I’assistance a la navigation en vue subjective dans un 
environnement virtuel complexe 

Pour le premier type de locomotion, la metaphore employee pour se deplacer et les 
conditions de perception sont plutot d’inspiration « naturaliste^ ». Nous avons d’ailleurs 
pose assez precisement les donnees du probleme lorsque nous avons discute, 

- section 5.1.1.1, du role des indices de la localisation auditive pour la navigation, 

- et section 5.1.1.2 de I’acquisition de connaissances spatiales dans un environne¬ 
ment construit et arbitrairement complexe. 

Notamment, nous avons remarque que, dans un environnement construit, la presence 
d’obstacles reduit considerablement I’information visuelle disponible sur I’environne- 
ment et, en consequence, limite la capacite d’un individu a raisonner sur la position 
relative des « objets » qui s’y trouvent. En d’autres termes sans assistance ou sans une 
certaine experience, I’tiabilete d’un individu a se deplacer d’un point a un autre dans 
renvironnement s’en trouve reduite. Ainsi, il nous a semble assez evident que la mo- 
dalite auditive etait en mesure de combler certaines lacunes de la modalite visuelle et 
rendre I’environnement virtuel plus accessible. C’est done pour repondre a un probleme 
d’usage relativement concret que nous avons decide, dans un premier temps, d’evaluer 
V utilisabilite d’un dispositif sonore pour la navigation dans un environnement virtuel 
construit et arbitrairement complexe. Par la force des choses, cette etude, qui sera I’ob- 
jet de la deuxieme partie du manuscrit, prendra essentiellement en consideration le point 
de vue de I’utilisateur. En effet, il nous a semble, apres examen de la litterature, que la 
conception d’une assistance sonore a la navigation posait moins de problemes en termes 
de mise oeuvre des techniques de spatialisation qu’en termes de design de la represen¬ 
tation des informations de position. Le paysage sonore pouvant etre reduit a I’essentiel, 
c’est a dire aux empreintes (ou soundmarks) utiles a la navigation^, on se contentera 
d’une approche « centree sur I’objet » deja bien eprouvee et a laquelle nous n’avons pas 
I’intention d’apporter notre contribution. 


^Pour ne pas dire « ecologique ». 

’^Nous avons bien eu I’occasion de remarquer que certaines empreintes (ou soundmark) d’un paysage 
sonore peuvent jouer un role equivalent ou complementaire aux points de repere visuels (ou landmark). 
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Notre objectif etant d’evaluer I’apport des indices de la localisation auditive pour la 
navigation, dans le cas particulier on la vision est contrainte a une succession d’obser- 
vations locales de I’espace, nous allons plutot nous attarder sur la fagon dont on pent 
communiquer, a I’aide d’un son, I’information relative a la position d’un site distant {i.e. 
en dehors du champ visuel de la camera). Plus precisement, les questions de recherche 
auxquelles nous comptons apporter quelques elements de reponse sont les suivantes : 


- Comment peut-on mettre a profit les indices de la localisation auditive pour aider 
le joueur a trouver son chemin vers une cible ? 

- La modalite auditive peut-elle contribuer an developpement de la connaissance 
spatiale qu’offre deja I’exploration visuelle? En d’autres termes, peut-elle partici- 
per a la construction d’une carte mentale de I’environnement ? 


En outre, comme nous I’avons mentionne plusieurs fois, si I’on desire evaluer plus 
particulierement I’apport des technologies audio 3D, il nous faudra observer I’effet d’une 
degradation des effets de spatialisation sur Vutilisabilite du dispositif. D’ailleurs, nous 
avons en I’occasion de debattre de la contribution des differences interaurales propres 
aux HRTF, pour la localisation dans le plan horizontal, done de I’avantage de la synthese 
binaurale sur la stereophonie {section 3.1.1). Or, bien qu’il nous ait semble, an premier 
abord, que les indices spectraux presentaient plutot un avantage en termes de qualite 
du rendu sonore, qu’en termes d’acuite de localisation, nous avons souleve quelques 
questions interessantes auxquelles nous esperons aussi apporter quelques elements de 
reponse : 


- Si la synthese binaurale apporte un avantage quantifiable par rapport a la ste¬ 
reophonie, ne serait-ce pas en termes de temps de reaction, plutot qu’en termes 
d’acuite de localisation ? 

- Etant donne que le systeme auditif est capable de s’adapter a un ensemble de 
HRTF non-individuelles, ne devrait-on pas considerer un certain temps d’appren- 
tissage avant d’observer un avantage quantifiable de la synthese binaurale sur la 
stereophonie ? 


Enfin, une etude d' utilisabilite necessite une approche « ecologique » de revaluation. 
En d’autre termes, afin d’assurer un certain degre de validite externe, nous simulerons un 
contexte d’usage « reel». L’experience prendra alors la forme d’un jeu de navigation dans 
un espace visuel simplifie on rutilisateur devra mettre a profit les informations visuelles 
qui lui sont fournies. En outre, la maquette que nous developperons sera I’occasion 
d’introduire quelques principes pour la conception d’une interface de navigation dans 
un environnement sonore 3D. En particulier, nous expliquerons comment I’interface met 
a profit un modele de semantique {section 5.2.2.3) de I’environnement pour la gestion 
des interactions. 
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Conception et evaluation d’une interface sonore pour la na¬ 
vigation en survol dans les grandes scenes 

Lots d’une locomotion en survol, on s’eloigne des conditions de perception d’inspi- 
ration « naturaliste » a laquelle nous contraint la locomotion pedestre. En effet, plutot 
que d’immerger I’observateur dans I’environnement, au sens propre du terme, le point 
de vue allocentrique (ou synoptique) offre une representation de I’espace tres riche, per- 
mettant d’en apprehender la globalite aussi bien que le detail, grace a I’operation de 
zoom {i.e. deplacement vertical de la camera). Cette fois-ci nous avons souleve un cer¬ 
tain nombre de problematiques relatives, non seulement, a Vusage, mais surtout a la 
conception d’interfaces de navigation auditive et, plus generalement, de representation 
sonore 3D d’informations a reference spatiale (aussi dites georeferencees). En effet, nous 
avons aborde le probleme selon la perspective de I’utilisateur lorsque nous avons discute 

- section 5.1.2.1, de la notion ambigue de point d’ecoute et du type de perspective 
qu’il etait en mesure d’offrir sur I’environnement. 

- et section 5.1.2.2 de la notion de contrepoint audiovisuel en pronant, pour une 
interface zoomable, une forme de « complementarite representationnelle » entre le 
point de vue et le point d’ecoute . 

Nous avons enfin aborde le probleme selon la perspective du concepteur de logiciel 
lorsque nous avons discute 

- section 5.2.1.3, de la distinction entre les approches « centree sur I’objet » et 
« centree sur le champ sonore », definissant la « classe d’objets audio » nommee 
Surroundingsound qui tient une place particuliere dans la classification fonction- 
nelle des sons d’un environnement virtuel {sons de zone), 

- section 5.2.2.1, de I’usage des Surrounding Sound comme alternative aux tech¬ 
niques de gestion du niveau de detail pour le rendu des effets de spatialisation 
(optimisation des ressources du systeme), 

- section 5.1.2.2 et 5.2.2.2, de I’optimisation des ressources perceptives et cognitives 
de I’utilisateur, qui conduit a un certain nombre de transformations s’appliquant 
soit aux « donnees » representees, soit au rendu sonore proprement dit {zoom 
semantique). 

- et section 5.2.2.3 de la notion d’« Abstraction analytique » et de « modele de 
semantique », offrant I’opportunite de raisonner sur I’espace pour en creer des 
representations sonores plus adaptees a une tache de navigation dans un environ¬ 
nement virtuel. 

Cette fois-ci, les problematiques liees a Vusage de la spatialisation sonore ne seront 
pas traitees avec la meme insistance. En effet, nous avons pu constater qu’un grand 
nombre de questions se posaient encore, quant a leur mise en oeuvre pour la navigation 
dans un environnement sonore 3D de « grande ampleur ». Notamment, nous avons re- 
marque que les sons de zone (ou sons d’ambiance) pouvaient monopoliser, a eux seuls. 
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les ressources allouees au moteur de rendu sonore, si I’on se cantonnait a I’approche clas- 
sique, « centree sur I’objet ». Or, il semblerait qu’ils puissent tout a fait s’accommoder 
d’une approche « centree sur le champ sonore », beaucoup plus econome. Cependant, 
pour que des flux audio multicanal (SurroundingSound) soient utilisables dans le cadre 
d’une application interactive, il nous faut encore definir une methode pour les rendre 
« positionnables », au meme titre que des flux audio monophoniques {Directivesound). 

L’etude presentee dans la Troisieme partie du manuscrit se donnera done pour pre¬ 
mier objectif de definir les transformations de rotations et de distorsions de perspective 
dans le cas particulier d’une panoramisation par paires, puisque I’encodage Ambisonic 
n’est pas tout a fait satisfaisant dans I’etat actuel des recherches : 

- le cout impose par I’encodage Ambisonic est superieur a celui de la panoramisation 
par paires, 

- il offre moins de liberte pour la manipulation des composantes directionnelles, 

- il n’existe pas de methode pour compressor un flux multicanal au format B et 
encore moins aux ordres superieurs^ {HOA), 

- bien que I’on puisse aisement realiser une rotation du champ sonore quel que soit 
I’ordre, la distorsion de perspective (« transformation de Lorentz ») aux ordres 
superieurs deteriore les proprietes d’onde plane du champ sonore reproduit. 

Le second objectif de cette etude sera alors de definir 1’architecture logicielle et de 
developper la maquette d’une interface offrant, entre autres, les fonctionnalites requises 
pour : 


- la creation de scenes sonores a partir d’une description geometrique simple, 

- I’extraction d’informations symboliques et geometriques, 

- I’interaction avec les SurroundingSound, 

- la reduction du niveau de detail d’une scene sonore grace a la substitution des 
DirectiveSound par des SurroundingSound. 

Le troisieme objectif sera enfin d’evaluer dans quelle mesure, pour une reproduction 
sur haut-parleurs, une scene implementee a I’aide d’un SurroundingSound represente 
une degradation, par rapport a la meme scene implementee a I’aide de plusieurs Di¬ 
rectiveSound. Nous utiliserons pour cela une version modifiee du test MUSHRA (pour 
Multiple Stimulus with Hidden Reference and Anchors [ITU03]), en prenant pour refe¬ 
rences, lors du jugement comparatif, les reproductions monophonique et stereophonique 
« multicanal » de la scene DirectiveSound originale. Nous n’attendons pas de cette ex¬ 
perience, qu’elle nous permette de determiner si I’approche « centree sur le champ so¬ 
nore » est en mesure de se substituer a I’approche « centree sur I’objet » pour le rendu 
des sons d’ambiance. Notre objectif, in fine, est plutot de determiner de quelle fagon 
certaines distorsions prealablement identifiees peuvent influencer le jugement de fidelite 

®Du moins, on n’en connait pas les consequences d’un point de vue perceptif. 
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d’une scene SurroundingSound par rapport a une scene DirectiveSound de reference; 
ceci dans des conditions d’ecoute differemment degradees. 

Bien que cette seconde et derniere etude considere essentiellement la perspective 
du concepteur de logiciels, nous avons souleve de nombreuses questions considerant, 
elles, la perspective de I’utilisateur. Notamment, nous avons note que la question de 
I’usage de la modalite auditive dans les interfaces zoomables etait, de toute evidence, 
laissee en suspens. Ainsi, nous aurions soutiaite etendre nos travaux aux problemes du 
zoom semantique et de la creation de representation sonore multi-resolution, comme 
I’ont propose Woodruff et al. [WLS98], pour la visualisation de donnees georeferencees 
avec I’application DataSplash. Afin de rendre compte de nos reflexions sur le sujet, nous 
presenterons, en guise de preambule, un exemple simple de complementarite du point 
de vue et du point d’ecoute et proposerons differentes transformations qu’il est possible 
d’appliquer pour modifier les proprietes d’une representation sonore de I’espace {e.g. la 
carte d’un jeu de strategie). 



Deuxieme partie 


Conception et evaluation d’un 
dispositif sonore spatialise, pour 
I’assistance a la navigation en vue 
subjective dans un environnement 
virtuel complexe 
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II n’est a peu pres aucun regard parisien qu’elle ne touehe d un eertain moment de la 
journee; a I’heure oil, eerivant ees lignes, je eommenee a parler d’elle, elle est la, devant 
moi, deeoupee par ma fenetre; et au moment meme oil la nuit de janvier I’estompe, 
semble vouloir la rendre invisible et dementir sa presenee, voiei que deux petites lueurs 
s’allument et clignotent doueement en tournant a son sommet : toute eette nuit aussi 
elle sera la, me liant par dessus Paris a tous eeux de mes amis dont je sais qu ’Us la 
voient : nous formons tous avee elle une figure mouvante dont elle est le eentre stable : 
la tour est amicale. 


Roland Barthes, La Tour Eiffel 
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Chapitre 7 

Introduction 


Cette etude a pour objectif d’evaluer I’apport des indices de la localisation audi¬ 
tive pour une navigation en vue subjective, dans un environnement virtuel construit et 
arbitrairement complexe. En d’autres termes, nous traitons du cas particulier ou I’ex- 
perience visuelle est reduite a une succession d’observations locales de I’espace. Prenant 
plutot en consideration la perspective utilisateur que celle du concepteur de logiciels, 
nous porterons un soin tout particulier a decrire le comportement de I’individu durant 
la tache, ses performances, son ressenti a posteriori et tout autre element pouvant nous 
renseigner sur la qualite du dispositif. Ainsi, comme nous I’avons enonce dans I’intro- 
duction generale, I’originalite de notre demarche vient en partie de I’approche globale 
de revaluation qui, d’une part, porte sur les differentes dimensions de Vutilisabilite (ef- 
ficacite, efficience et satisfaction) et, d’autre part, met en regard la spatialisation sonore 
avec la stereophonie, seule veritable reference pour une population non-experte. 


Le chapitre 8 motivera tout d’abord cette etude, en portant un regard critique 
sur les dispositifs visuels d’assistance a la navigation que Ton rencontre traditionnel- 
lement dans les jeux de type FPS (mini-cartes et icones en surimpression). Puis nous 
motiverons plus exactement le choix des dispositifs sonores proposes a revaluation. En 
reponse a un probleme d’usage concret, nous presenterons deux approches differentes 
pour communiquer, a I’aide d’un son, I’information relative a la position spatiale d’un 
site distant. Nous considererons, d’une part, des balises decontextualisees, points de 
reference radiale et azimutale et, d’autre part, des balises contextualisees, indiquant ex- 
plicitement le chemin a suivre. Nous expliquerons pourquoi il est pertinent de s’appuyer 
sur un tel contraste pour creer deux conditions differentes de cognition spatiale. De la 
meme fagon, nous expliquerons pourquoi il est pertinent de s’appuyer sur le contraste 
entre la synthese binaurale et la stereophonie mixte, pour creer deux conditions diffe¬ 
rentes de perception spatiale. En d’autres termes, nous verrons ce qui nous a amene a 
definir les deux facteurs experiment aux de 1’experience : 
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Facteurs experimentaux 

Modalites 

Representation de 
r Information spatiale 

1 

Balises contextualisees 


Balises decontextualisees 

Rendu Sonore 


Synthese binaurale non-individualiee 


Stereophonic mixte 


Le chapitre 9 se concentrera plus particulierement sur la conception et la mise en 
oeuvre de la plateforme de navigation interactive. Nous verrons tout d’abord comment 
est extraite la semantique de I’environnement, soit les informations relatives au reseau 
de route (on graphe). Nous verrons alors comment ces informations peuvent etre mises 
a profit pour la gestion des interactions {i.e. le deplacement semi-automatise de la ca¬ 
mera). Nous presenterons, ensuite comment ont ete mises en oeuvre les balises sonores 
en detaillant, d’une part, la representation sonore des donnees de distance (« loi en 
^ ») et de direction {binaural vs stereophonic) d’une cible. En outre, nous expliquerons 
comment sont calculees les informations de distance et de direction d’un site a partir 
de ses coordonnees cartesiennes : extraites des coordonnees polaires dans le referentiel 
de la camera {balises decontextualisees) et extraites du ctiemin le plus court de la cible 
a I’auditeur {balises contextualisees). Enfin nous presenterons les differents choix de de¬ 
sign qui ont ete realises, tant d’un point de vue sonore que visuel. 

Le chapitre 10 presentera alors revaluation proprement dite. Nous commencerons 
par detainer le plan d’experience, les variables dependantes, tant objectives (issues de 
I’historique de I’interaction et du rappel de position sur la carte) que subjectives (auto¬ 
evaluation de la charge de travail et questionnaire de ressenti). Enfin, nous presenterons 
les hypotheses propres a chacun des facteurs, puis detaillerons la procedure de test avant 
d’exposer les resultats de revaluation, que nous discuterons longuement. Cette discus¬ 
sion nous permettra de conclure de V utilisabilite relative des balises decontextualisees 
et contextualisees et de I’apport de la synthese binaurale, par rapport a la stereophonic 
mixte. 





Chapitre 8 

Motivations 

8.1 Presentation du contexte de I’etude 

8.1.1 Motivation du cadre applicatif 



(a) (b) 


Fig. 8.1 (a) Carte multijoueurs du jeu Halo 2 [Bun04] (d’apres Luban [LubOG]). (b) 

La Tour Eiffel, vue par Frangois Truffaut, dans le film Les 400 coups. 


L’ajout d’elements de decor visibles meme partiellement de n’importe quel endroit 
d’un environnement virtuel (Figure 8.1.a), est un moyen simple et efficace pour faciliter 
I’orientation du joueur sur une carte en exterieur d’un jeu de tir en vue subjective (ou 
FPS, pour First Person shooter). Comme I’illustre si bien Frangois Truffaut, en intro¬ 
duction de son film, Les 400 coups (Figure S.l.b), la Tour Eiffel joue elle aussi un tel 
role pour le pieton ou I’automobiliste parisien : elle rend, dans une certaine mesure, 
renvironnement plus accessible. Cependant mis a part de tels points de repere au de- 
meurant tres rares, la vision est limitee a une perception locale a cause des contraintes 
imposees par I’environnement {e.g. les murs, les batiments, etc.). Ainsi, meme si les 
landmarks (d’apres le terme employe par Lynch [LynGO]) peuvent faciliter I’orientation, 
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la navigation releve neanmoins dn challenge, dans nn tel contexte. Ils ne donnent acces 
qn’a nne connaissance partielle de I’espace; s’ils permettent de localise! nn site dans nn 
environnement, ils ne permettent pas necessairement de s’y rendre. 

Ainsi, des elements d’interface in-game sont parfois ajontes ponr faciliter, dans les 
limites dn « raisonnable^ », I’acqnisition de connaissance spatiale, bien an dela de ce qne 
permettent naturellement les capacites perceptives et cognitives dn joueur. La technique 
la plus repandue (et la plus ancienne) pour fournir nne telle assistance a la navigation, 
est d’afficher nne mini-carte (Figure 8.2.a), decouvrant tout on partie de I’environnement 
(plus on moins schematiquement), vue de dessus {i.e. perspective allocentrique). Plus 
recemment, des icones en surimpression ont ete utilisees dans Splinter Cell - Pandora 
Tomorrow Xbox et Chaos Theory pour aider le joueur a trouver son chemin vers nn 
site distant, en lui permettant de visionner a la fois son objectif et les acces possibles 
(Figure 8.2.b). 





Fig. 8.2 - Dispositifs visuels pour I’aide a la navigation dans nn FPS : (a) incrustation 
d’une mini-carte dans Metal Cear Solid 2 Substance, et (b) icones en surimpression, 
indiquant la position d’un site distant, dans Splinter Cell - Pandora Tomorrow Xbox et 
Chaos Theory (d’apres Luban [LubOG]). 


Cependant, Lutilisabilite de tels dispositifs visuels d’assistance a la navigation est 
discutable. En effet, les mini-cartes ont tendance a detourner I’attention visuelle dn 
lieu on se deroule I’action et la surimpression d’icones, a surcharge! I’ecran. II pourrait 
done etre judicieux de tirer profit de la complementarite entre les modalites visuelles et 
auditives et laisser cette derniere se charger de la representation des evenements qui se 
situent an dela dn champ de vision. 


^Rappelons que, I’objectif explicite d’un jeu est de procurer du plaisir au joueur au travers des 
interactions qui composent son activite. Or, d’apres Johnson [JW03], on pent favoriser Vaffect positif 
si nne bonne decision est prise en condition de challenge. 
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8.1.2 Motivation du cadre conceptuel 

A ce stade de notre expose notre objectif n’est rien moins que la conception, I’imple- 
mentation et I’evalnation de I’ntilisabilite d’nn dispositif sonore spatialise ponr I’assis- 
tance a la navigation en vne snbjective dans nn environnement virtnel complexe. Ponr 
ne pas en rester a nne formnle anssi evasive, nons nons devons de repondre a qnelqnes 
qnestions, dont la premiere, et non des moindres, est la snivante : qnel dispositif conce- 
voir et ponrqnoi ? II ne s’agit pas tant de determiner la techniqne de spatialisation sonore 
a mettre en oenvre, qne de determiner la fagon dont on pent commnniqner a I’aide d’nn 
son, I’information relative a la position spatiale d’nn site distant. 

Comme ponr la modalite visnelle les elements d’nn paysage sonore penvent etre mis 
a profit ponr faciliter I’orientation dn jonenr snr la carte dn jen. Or, nne representa¬ 
tion sonore realiste est tentante si Ton sait qne le son se propage natnrellement snr 
de longnes distances. Cependant, etant donne la variete des environnements qne Ton 
pent rencontrer dans nn jen et lenr extreme complexite, il est difficile de concevoir nne 
auralisation, temps-reel et generiqne. De pins, meme si cela ne poserait pas de probleme 
de mise en oenvre (Fnnkhonser et al. [FTC^04] proposent d’aillenrs nn rendn interactif 
fonde snr la methode dn beam tracing)^ il n’est pas certain qn’nne telle approche nons 
permettrait de concevoir nn dispositif ntilisable ponr nne tactie de navigation. 



Fig. 8.3 - Simnlation de ctiemins de propagation dn son d’nn tielicoptere et d’nn camion 
dans nn environnement nrbain. La reflexion et la diffraction dn son snr les obstacles sont 
evalnees par nne techniqne de lancer de faisceanx (d’apres [FTC+04]). 


Rappelons qne les techniqnes de lancer de faisceanx (et de beam tracing), illnstrees 
Fignre 8.3, permettent avant tonte chose, de modeliser les effets de reverberation pergns 
a nne position donnee dans 1’environnement. Or, comme I’ont montre les recherches en 
aconstiqne des salles, la direction d’incidence des premieres reflexions n’inflnence ancn- 
nement I’azimnt pergn d’nne sonrce sonore. Senle compte la direction d’incidence dn 
premier front d’onde (effet d’anteriorite). Les techniqnes de spatialisation sonore n’ont 
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alors d’autre utilite, a priori, que de donner une impression d’espace a I’auditeur, quan¬ 
tifiable notamment par I’energie reverberee laterale. Supposons cependant I’existence 
d’un premier front d’onde qui se distingue du reste du champ sonore (decalage tem- 
porel au moins superieur a 1 ms), probablement tres « diffus », qui doit resulter de la 
propagation dans de tels environnements. Si I’on suppose encore, que les parois ont un 
coefficient de transmission proche de zero, il est vraisemblable que celui-ci, grace aux 
diffractions successives, suivent le chemin le plus court de la source a I’auditeur. Comme 
I’indique la figure 8.4, a I’endroit ou se produit la derniere diffraction, I’auditeur pergoit 
une source sonore, que I’on qualifie d’imposteur, puisse qu’elle se substitue a la source. 



Fig. 8.4 - Calcul du plus court chemin de la source a I’auditeur (en rouge), pour 
determiner la position d’une source imposteur, simulant I’azimut pergu d’une source 
distante dans un environnement virtuel complexe. 


II n’est pas de notre propos de discuter de la realite physique d’un tel phenomene, 
bien au contraire. En revanche, etant donne la capacite de la source imposteur a indiquer 
le chemin le plus court vers le site de la source originate, il nous parait indispensable 
d’en etudier I’utilisabilite pour la navigation. En effet, la prise en compte recente d’ef- 
fets environnement aux dans certaines extensions des APIs audio {e.g. I’EAX de Creative 
Labs), permet desormais la synthese de scenes sonores des plus realistes. Or, bien que la 
modelisation des phenomenes physiques, tels que la reverberation ou I’exclusion, ame- 
liore le realisme du rendu et puisse favoriser I’immersion, elle peut surtout conduire a 
une deformation de I’information relative a la position spatiale des sons. Bien que le 
systeme auditif soit capable de recalibration, lorsqu’il est expose a des situations aty- 
piques, ou qu’il puisse simplement s’en accommoder, cela ne peut etre sans consequence 
pour la navigation et I’acquisition de connaissance spatiale, en general. 

Ainsi, de telles balises sonores, indiquant le chemin le plus court vers un site distant, 
s’opposent aux landmarks de Lynch [LynGO] qui sont de veritables points de reference, 
symboles d’une direction constante et, en tant que tels, intrinsequement stables. Ces 
deux approches de la conception de dispositifs d’aide a la navigation semblent a ce point 
complementaires que nous allons nous appuyer sur ce contraste pour structurer notre 
etude. Nous qualifierons ledit contraste par la capacite des balises a prendre en compte le 
contexte environnemental. Nous distinguerons done les balises decontextualisees, points 
de reference radiale et azimutale, des balises contextualisees, mimant la propagation de 
I’onde acoustique de la source a I’auditeur. 








Facteurs experimentaux et problematiques sous-jacentes 
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8.2 Facteurs experimentaux et problematiques sous-jacentes 

Pour mener a bien une etude d’utilisabilite d’un dispositif sonore, on doit prendre en 
consideration trois sous-tdches, se referant chacune a differents domaines de la psychoa- 
coustique. D’apres Walker et Kramer [WK04] premierement il y a la tache « simple » de 
perception des sons dans I’environnement, ensuite la tache de segregation d’une mixture 
en multiples flux auditifs, et enfln la tache de traitement associatif et cognitif dont de¬ 
rive la connaissance. Ainsi, pour ameliorer les performances d’un utilisateur, lors d’une 
tache de navigation auditive, on se doit, d’une part, d’ameliorer les performances de 
localisation des sources dans une mixture sonore, et, d’autre part, de faciliter a plus 
long terme la creation d’une representation mentale (ou carte cognitive) de I’environ¬ 
nement explore. Ces deux « niveaux » de recommandation pour la conception d’une 
interface sonore (I’un perceptif, I’autre cognitif) motivent le choix de deux facteurs ex¬ 
perimentaux, dont nous presentons ici les modalites et un apergu des problematiques 
sous-jacentes^. 

8.2.1 Facteur experimental Rendu Sonore (RS) 

Afln de discuter du benefice qu’apporte une plus grande precision des effets de spatia- 
lisation, les differentes techniques que nous avons presentees {section 3.1.1) doivent etre 
comparees. Cependant, elles ne peuvent pas toutes etre placees sur un meme « conti¬ 
nuum de qualite objective », pour la reproduction d’images spatiales. Par exemple, 
comme nous I’avons deja remarque en introduction du chapitre 3.1, il est delicat de 
comparer une reproduction sur haut-parleur et une reproduction au casque. Or, si la 
« precision » du dispositif de spatialisation sonore pent s’exprimer en terme de « quan¬ 
tity » et/ou de « qualite » des indices de localisation auditive, il nous parait plus per¬ 
tinent de comparer la technique de stereophonie mixte {i.e. d’amplitude et de phase) et 
la technique binaurale (nous considererons que les HRTF ne sont pas individualisees). 
En effet, pour une diffusion au casque il existe entre ces deux techniques une relation 
explicite (ou quantifiable), en terme de degradation : la presence ou I’absence des indices 
spectraux (HRTF). 

Lorsque Taction se developpe verticalement^, la synthese binaurale apporte un avan- 
tage evident par rapport a la stereophonie. Cependant, nous avons deja pu remarquer 
que le faible pouvoir de resolution spatial du systeme auditif dans le plan vertical me¬ 
dian (Figure 2.4, section 2.1.2) compromettait Tutilisation de Televation. Du moins, les 
indices spectraux, particulierement si les HRTF ne sont pas individualisees, ne consti¬ 
tuent pas des indices suffisamment flables pour etre utilisables seuls. Lokki et Crohn 
[LG05] remarquent d’ailleurs que la perception de Televation est Tun des problemes 

’^II ne s’agit pas, a proprement parler, A'hypotheses, puisque celles-ci ne peuvent etre emises que 
dans le contexte global de I’interface qui sera developpee pour I’experience. De plus les observations 
attendues ne peuvent etre enoncees que dans le cadre de variables dependantes (ou observables) bien 
precises, devant etre delinies au prealable. 

®Du point de vue du Level Design, il est assez important de tirer profit de la troisieme dimension, 
puisqu’elle enrichit clairement les possibilites tactiques [LubOG] 
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majeurs d’une navigation auditive dans un espace 3D. De plus, il n’est pas totalement 
errone de considerer que la topologie d’une carte de FPS est globalement 2D (an pire, 
une succession de plans), et que la perception des sources dans un paysage sonore se fait 
essentiellement dans le plan horizontal. Or, dans ce cas, la seule certitude qui nous soit 
permise, s’agissant de la precision de localisation d’une cible auditive, est que I’utilisa- 
tion des HRTF reduit de fagon significative le nombre d’inversions avant/arriere (meme 
lorsque Ton prend en compte les changements apparents d’azimut occasionnes par le 
mouvement de rotation de la tete^ [Wen95]). Cependant, lorsque I’auditeur se deplace, il 
beneficie en plus des indices de la localisation dynamique : le mouvement absolu de paral- 
laxe {i.e. le changement apparent d’azimut occasionne par le mouvement de translation) 
et le taux aeoustique {i.e. variation relative de I’intensite du son). Dans ces conditions, la 
probabilite d’occurrence des inversions avant/arriere semble quasiment nulle. Meme si, 
a notre connaissance, aucune etude ne confirme une telle hypothese, aucune ne I’infirme 
non plus. D’ailleurs, les rares travaux ayant en pour objet la navigation auditive en 
environnement virtuel (Walker et Lindsay [WL03] [WL04] on Lokki et Grohn [LG05]) 
ne revelent pas de probleme particulier de confusion lors de I’orientation d’un auditeur 
vers une cible et indiquent meme une relative performance pour I’accomplissement de 
cette tache^. 

Ainsi malgre I’evidence rien n’indique qu’en pratique {i.e. durant une tache de navi¬ 
gation) , la synthese binaurale ameliore significativement les performances de localisation 
d’une cible unique par rapport a la stereophonie mixte classique. En fait, I’amelioration 
n’est peut-etre pas de nature perceptive mais cognitive. Quand bien meme les indices 
spectraux n’amelioreraient pas la precision de la localisation proprement dite, de nom- 
breuses etudes montrent qu’ils facilitent la segregation des sources dans une mixture 
sonore. En effet I’utilisation de HRTF ameliore de fagon significative les performances 
lors d’une tache d’attention selective. Une telle habilete pent faire nettement la diffe¬ 
rence lorsque le joueur doit se focaliser sur une cible sonore et s’orienter vers elle malgre 
la presence de multiples sources concurrentes. 


8.2.2 Facteur experimental Representation de I’Information spatiale 
(RI) 

S’orienter a I’aide d’une balise deeontextualisee (Figure 8.5) revient en quelque sorte, 
a se deplacer dans une ville a I’aide d’une boussole. Si Ton suppose que le joueur 
ne connait pas son environnement, I’efficacite de la navigation depend essentiellement 
(outre la capacite a percevoir I’azimut du son) de la complexite du reseau defini par 
I’interconnection des rues on des couloirs (Figure 8.6). En effet, la modalite visuelle n’est 
utile qu’a la prise de decision locale de I’orientation du deplacement fondee sur I’azimut 

■^Cela ne paraissait pas si evident an regard des premiers travaux de Wallach [Wal39]. 

®Walker et Lindsay [WL04] observent, cependant, une certaine difficulte des sujets a s’arreter pre- 
cisement a la position d’une cible. Cela n’est pas tres surprenant si Ton connait la grande imprecision 
avec laquelle le systeme auditif evalue la distance, d’ou I’interet d’un rayon de capture qui definit une 
distance minimale a partir de laquelle une cible est consideree atteinte. 
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Fig. 8.5 - Perception de I’environnement a I’aide de balises decontextuaUsees et contex- 
tualisees. 


pergu des balises sonores. Concretement, le joueur n’a d’autre solution que de s’orien- 
ter vers la sortie dont I’azimut est le plus proche de celui de la source cible. N’ayant 
pas conscience du trajet qu’impose le reseau, il pent etre trompe par les apparences, 
se retrouver dans une impasse on simplement, parcourir une plus longue distance. Les 
balises contextualisees presentent done un avantage (trop) evident en permettant de 
prendre systematiquement la bonne decision sans qu’aucun « effort mental » {i.e. la 
comparaison d’azimut) ne soit necessaire. 



Fig. 8.6 - Exemple de complexite d’un reseau de route. Le reseau (a) est suppose plus 
complexe que le reseau (b). 


Cependant, meme si le benefice a court terme est indeniable, une trop grande assis¬ 
tance pent aussi nuire, a plus long terme, an developpement de la connaissance spatiale. 
En effet, comme I’indique I’etude de Burnett et Lee [BL05] concernant les systemes GPS 
embarques d’aide la navigation, la rapidite avec laquelle sont prises les decisions de na¬ 
vigation, le pen d’attention accordee a I’environnement on encore le manque de stress 
et d’engagement durant la tache, sont autant de facteurs defavorables a la construction 
d’une carte mentale. De plus, les balises contextualisees n’apportent rien a la connais¬ 
sance spatiale qu’offre deja I’exploration visuelle. En revanche, les balises decontextuali- 
sees apportent une connaissance des points de repere (on landmark knowledge)^ comple- 
mentaire a la connaissance des itineraires (on route knowledge) issue de la perception 
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visuelle. Elies participent done a la connaissance de la configuration (on survey know¬ 
ledge), contribuant, en theorie, a une meilleure « vue d’ensemble » sur I’environnement 
(representation allocentrique). 

8.3 Objectifs de I’experience 

Nous avons retenu ces deux facteurs experimentaux, car ils nous permettent a priori 
de creer deux situations pertinentes de perception (facteur Representation Sonore) et 
de cognition spatiale (facteur Representation de I’Information Spatiale). Cependant, de 
fagon plus generale, la manipulation de ces facteurs et de leurs interactions devra nous 
permettre de tester un certain nombre d’liypottieses portant sur V efficacite, Vefficience 
et la satisfaction avec laquelle un utilisateur/joueur accomplit une tache de naviga¬ 
tion grace aux indices de la localisation auditive. Nous definirons, pour cela, un certain 
nombre d’observables (on variables dependantes) qui nous permettront de discuter de 
I’apport de la spatialisation sonore, taut de fagon quantitative que qualitative, pour la 
navigation en vue subjective dans un environnement virtuel complexe. 



Fig. 8.7 - Carte de I’environnement utilise pour I’experience de navigation auditive. 


En outre, afin d’assurer un certain degre de validite externe des resultats de reva¬ 
luation, il nous est indispensable de nous placer dans le contexte d’un cas d’usage 
« realiste ». L’experience prendra done la forme d’un Jen de navigation dans un espace 
visuel simplifie on I’utilisateur devra s’orienter en mettant a profit les informations so- 
nores qui lui seront fournies. Le but du Jen sera de trouver, le plus rapidement possible, 
neuf sources sonores « ecologiques » (« fanfare », « eglise », « travaux », etc.), cachees 
dans certaines rues d’une ville (Figure 8.7), en navigant (a I’aide des flecties du clavier) 
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avec une vue a la premiere personne. Ces sources, reparties dans trois zones disjointes de 
couleurs differentes (marquage an sol de couleur rouge, bleue et verte), seront audibles 
a chaque instant, mais reclierctiees les unes apres les autres. Le point de depart pour la 
premiere source se trouvera an centre de I’environnement et le sujet partira toujours de 
la position de la source precedente pour trouver la suivante. 

Cette experience n’a pas pour principal objectif d’etre ludique, mais bien de per- 
mettre un maximum de controle des variables independantes (facteurs experimentaux) 
et dependantes (observables). Meme si cela se fait au detriment du plaisir que procure 
I’interaction, il est primordial d’operer certains ctioix de design, pour eviter qu’aucun 
autre facteur, que ceux desires, n’influence nos observations. Par exemple, si Ton sou- 
haite mesurer la capacite de rutilisateur/joueur a memoriser I’emplacement des sources 
sonores, au seul moyen de la modalite auditive, nous devrons prendre soin qu’aucun re- 
pere visuel ne puisse etre mis a profit durant la navigation. Nous allons done presenter, 
non seulement, comment I’environnement de test a ete congu, mais aussi les choix qui 
ont ete faits tant pour le design sonore que visuel. Nous donnerons, ensuite, les details 
de revaluation, en decrivant les variables independantes et le plan experimental. Enfin, 
apres avoir dresse une liste complete des hypotheses et des observations attendues, nous 
presenterons les resultats obtenus, que nous discuterons. 
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Chapitre 9 

Conception et mise en oeuvre de la 
plateforme de navigation interactive 


9.1 Les fondements de I’interface 

9.1.1 Extraction de la semantique de I’environnement 

La premiere etape de la conception dn jen consiste a creer la ville virtnelle qni 
sera exploree. Or, ponr permettre la gestion des evenements lors de I’interaction, il 
est necessaire de disposer, ontre le modele 3D, d’nn « modele de semantiqne » de 
I’environnement, combinant, les aspects symboliqnes et geometriqnes. 



Fig. 9.1 - Carte de I’environnement ntilise ponr I’experience de navigation anditive. 
Les nenfs sonrces sont cactiees 


En ce qni nons concerne, il s’agit simplement d’extraire les informations relatives 
an resean de ronte (on graphe), soit nn ensemble de noeuds connectes par des segments 
(Fignre 9.1.a). Afin, d’nne part, de rednire le temps necessaire an design de la repre- 
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sentation visuelle et, d’autre part, de faciliter la creation du « modele semantique » , le 
reseau de route a ete realise avec des maillages 3D simples {i.e. des quadrilateres, crees 
par extrusion de face, comportant quatre vertices), grace au logiciel 3DS max. Comme 
il est illustre sur la figure 9.1.b, la route est constituee de trois categories d’objets : 
les segments, les noeuds actifs et les noeuds inactifs. Les noeuds actifs ne comportant 
que quatre cotes, certains sont juxtaposes, afin d’augmenter le nombre de chemins qui 
semblent pouvoir se croiser {nceud double). Quant aux noeuds inactifs, il ne sont qu’un 
artifice pour creer des virages a angle droit et rompre la monotonie d’un reseau trop 
regulier. N’etant pas des intersections au sens propre du terme, il ne seront pas consi- 
deres comme des noeuds lors de I’analyse du reseau. 

Le maillage complet du reseau de routes est alors exporte au format Wavefront Ob¬ 
ject (*.obj). Meme si la linearite de ce format trouve ses limites lorsque le graphe de 
scene est complexe^, il est cependant tres aise de recuperer les coordonnees de chacun 
des vertices qui composent le modele. Nous avons done ecrit un programme Matlab per- 
mettant d’extraire les informations utiles au developpement de I’interface de navigation. 
Ces informations ont ete enregistrees sous forme de tableau dans differents fichiers de 
texte, afin d’etre charges a I’initialisation du programme realise sous I’environnement 
Virtools (Tableau 9.1). 


Tableau 

Description 

PropNoeud 

Pour chaque nceud actif ou inactif, contient les coordonnees 
cartesiennes du centroi'de, et 1 s’il actif et 0 s’il est inactif. 

PropSegment 

Pour chaque segment, contient les coordonnees cartesiennes 
du centroi'de. 

IndexNextNoeud 

Pour chaque nceud actif, contient les index des noeuds actifs 
auxquels il est connecte. L’index est nul lorsque le nceud est 
inactif. 

TousN oeuds Voisins 

Pour chaque noeud (actif ou inactif), contient les index des 
noeuds (actif ou inactif) auxquels il est connecte. 

IndexNext Segment 

Pour chaque noeud actif, contient I’index des segments qui 
lui sont connectes. 

DirNextNoeud 

Pour chaque noeud actif, contient les vecteurs correspondant 
a la direction du prochain noeud (actif ou inactif) dans le 
graphe. 


Tab. 9.1 - Exemple de tableaux utilises pour la description symbolique du reseau de 
routes 


Enfin, a ces fichiers, s’ajoute un fichier de configuration IndexSource.txt, qui indique 
la position des cibles {i.e. I’index d’un segment) et I’ordre dans lequel elles sont recher- 
chees. 

^L’organisation hierarchique des formats plus evolues, tels que VRML ou X3D, est alors plus ap- 
propriee. 
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9.1.2 Reseau de route et dynamique de I’interaction 

Le jeu en lui-meme a ete developpe sous Virtools, qui est un espace de developpement 
d’application 3D temps reel. Malgre ses limites pour le developpement d’algorithme 
complexe, son langage de programmation graphiqne est parfaitement adapte an deve¬ 
loppement rapide d’nne maqnette a des fins strictement experiment ales. D’nne part, il 
permet d’integrer tres simplement la majorite des standards mnltimedia et d’antre part, 
il offre nne collection de comportements rentilisables (description d’nne action d’nn cer¬ 
tain element dans I’environnement, appelee Building Block) permettant de creer nne 
grande variete de contenns, anssi bien le jen de navigation, qne les traitements propres 
a I’experimentation (historiqne des interactions, interface ponr I’evalnation snbjective, 
etc.). L’nne des fonctionnalites les pins interessantes est la possibilite de definir nn re- 
sean de noends (« Create Nodal Path ») a partir dnqnel est calcnle le chemin le pins 
conrt entre denx points (« Find Path » on « Find Cnrved Nodal Path »). Or, grace anx 
tableanx qni ont ete defini precedemment (Tablean 9.1), nons ponvons positionner les 
noends (actifs et inactifs) antomatiqnement a I’initialisation dn programme et les relier 
entre enx, de telle sorte, qne le graphe de Virtools et le modele 3D importe coincident 
parfaitement (Fignre 9.2). On obtient alors tres simplement la liste de tons les noends 
qni composent le chemin optimal d’nn point A a nn point B, lenr position, on encore la 
longnenr dndit chemin; antant d’informations qni nons seront tres ntiles, comme nons 
allons le voir, lors de la conception dn jen. 



Fig. 9.2 - Recherche dn chemin le pins conrt d’nn point A a nn point B, grace a la 
building block « Create Nodal Path » de Virtools 


Dans nn FPS, la navigation s’effectne en deplagant nne camera en vne snbjective, a 
I’aide des peripheriqnes standards (clavier et sonris). Or, selon la familiarite avec ce type 
d’interaction (typiqnement, la freqnence avec laqnelle il jone a des FPS), la capacite a se 
deplacer librement dans I’environnement pent varier de fagon significative d’nn individn 
a nn antre. Ainsi, afin de minimiser I’inflnence dn nivean d’expertise snr son habilete a se 
deplacer, done a explorer le monde virtnel, il a ete decide d’antomatiser an maximnm les 
deplacements de la camera et de rednire an strict necessaire la manipnlation dn disposi- 
tif d’entree. Le controle de la camera se fait done simplement avec les fleches dn clavier : 



154 Conception et mise en oeuvre de la plateforme de navigation interactive 

- (fleche « droite » et fleche « gauche » ) En conservant les touches enfoncees, 
la camera pivote a une vitesse angulaire constante de 70° /s. 

- (fleche « haut » ) II suffit d’appuyer une seule fois sur cette touche pour que la 
camera se deplace automatiquement a I’intersection suivante, par interpolations 
lineaires successives entre les positions des noeuds qui jonchent le chemin vers la 
destination. L’application choisit le chemin dont la direction est la plus proche de 
I’orientation de la camera. 

- (fleche « has » ) Lorsque la camera est en deplacement, il suffit que le joueur 
appuie une seule fois sur cette touche pour que la camera revienne automatique¬ 
ment a I’intersection precedente, en suivant le chemin precedemment parcouru. 


La figure 9.3, montre un diagramme simplifie des actions qui sont realisees par le 
programme, lorsque le joueur interagit avec le systeme. 



Fig. 9.3 - Diagramme simplifie des actions qui sont realisees par le programme, lorsque 
le joueur interagit avec le systeme. 
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9.2 La mise en oeuvre des balises sonores 

Les chercheurs de France Telecom R&D ont integre a I’environnement Virtools, sous 
forme de Builgind Blocks, une grande partie des librairies de spatialisation sonore qui 
ont ete developpees an sein de leurs laboratoires. II nous a done ete possible, de mettre 
en oeuvre de fagon simple et efficace, les technologies audio 3D auxquelles nous faisons 
reference ci-dessous. Voyons comment celles-ci ont ete utilisees et a quelles fins. 

9.2.1 Representation sonore des donnees de distance et de direction 

Pour la representation de I’azimut, les balises stereophoniques utilisent un modele 
du pattern de directivite d’un couple AB-ORTF. Comme il est indique sur la figure 9.4, 
ce couple est compose de deux microphones cardioides espaces de 17 cm, dont 1’angle 
d’ouverture est de 120 ° . 



a = 120° 


d = 17 cm 


Fig. 9.4 - Pattern de directivite et disposition des microphones d’un couple AB-ORTF. 

Les balises binaurales, quant a elles, utilisent deux ensembles de filtres numeriques 
a reponse impulsionnelle finie {RIF), approximation de la fonction de transfer! relative 
a la tete d’un individu. Ces HRTF ne sont pas individualisees, mais une evaluation 
subjective a ete realisee prealablement dans les laboratoires de France Telecom R&D, 
pour determiner cedes qui parmi les huit disponibles offraient en moyenne les meilleures 
performances de localisation. 

En termes de sonification de donnees, les balises contextualisees et decontextualisees, 
representent toutes deux les donnees de distance et de direction d’une cible. Or, tandis 
que les versions stereo et binaurales ne representent pas exactement de la meme fagon 
I’information de direction, la distance, elle, est exprimee, quelle que soit la modalite de 
la condition experimentale, par la meme loi d’attenuation du niveau sonore, dite « loi 
en i » , exprimee par la relation [Col63] : 


« Perte en dB » = 20 x log(^) 


ou ro est la distance a un point de reference Pq et r, la distance au point P. Ainsi, 
chaque doublement de distance implique une perte supplementaire de 6 dB. En outre, 
afin que les sources soient audibles de n’importe quel endroit de I’environnement, nous 
avons determine une distance minimum dmin et maximum dmax-, au dela desquelles le 
niveau sonore reste constant. Nous avons alors ajuste, « a I’oreille », une dynamique 
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d’environ 30 dB, qui nous a semble suffisamment faible pour qu’a grande distance la 
cible ne soit pas masquee par les autres sources, et suffisamment importante pour que 
le joueur puisse determiner s’il se rapproche ou non de la cible. Plutot que de presenter 
I’equation qui regit I’attenuation en fonction de la distance, nous presentons sur la 
figure 9.5, la mesure de I’attenuation d’un bruit blanc en position frontale, pour une 
distance croissante et pour les deux modalites du rendu sonore. On pent remarquer 
que I’utilisation de HRTF conduit a un niveau plus faible (d’environ 1,5 dB) que le 
modele du couple AB-ORTF. Cependant cela ne devrait pas avoir de consequence pour 
revaluation. 



0 20 200 400 600 800 1000 1200 


Distance entre la source et V audit ear 

Fig. 9.5 - Attenuation du signal sonore (moyenne des signaux gaudies et droits), en 
fonction de la distance a la source, pour le rendu binaural et stereophonique (Valeur 
RMS). 


9.2.2 Des donnees de position aux donnees de distance et de direction 

Les balises decontextualisees et contextualisees se distinguent par la fagon dont sont 
calculees les informations de distance et de direction d’un site dans I’environnement, soit 
le couple {dj, 9i} correspondant a la distance et I’azimut de la i-eme source sonore. Pour 
les balises decontextualisees (Figure 9.6), di et 9i ne sont que les coordonnees polaires 
i-eme de la position de la cible. Ainsi, si et {Xi,Yi) sont respectivement les 

coordonnees cartesiennes de la camera (coincident avec le point d’ecoute dans la scene) 
et de la i-eme cible, on a : 
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Di=^{Xi-XLf + {Yi-yLf 
9i = arctan 



Fig. 9.6 - Donnees de distance et d’orientation utilisees par les balises decontextualisees. 


Avant d’aller plus loin, il est important de definir les concepts qui nous permet- 
tront d’expliquer clairement de quelle fagon seront congues les balises contextualisees. 
En effet, dans un environnement virtuel complexe, les notions de position, de distance 
et de direction doivent etre reconsiderees. Comme le suggere le « modele semantique » 
propose par Hu et Li [HL04], a la notion de position, se substitue tout d’abord celle de 
site, qui induit naturellement celle de sortie. 

- Un site est une zone geographique delimitee, avec une on plusieurs sorties. 

- Une sortie est un point de la delimitation par lequel on pent « entrer » on « sor- 
tir » d’un site. 

Ainsi, les segments (on rue) sont des sites (pour une cible) et les noeuds actifs, qui 
les delimitent, en sont les sorties. On definit ensuite la distance et la direction de la 
fagon suivante : 

- La distance entre les sorties de deux sites est la longueur du chemin le plus court 
entre ces deux sorties. 

- La direction d’un emplacement A vue d’un emplacement B est la sortie de A par 
laquelle la distance de A a B est la plus courte. 

On considerera done de fagon generale que le joueur a atteint son objectif, non pas 
lorsqu’il atteint la position de la cible proprement dite, mais lorsqu’il a atteint le site 
{i.e. le segment) on elle se trouve. Or, tres naturellement, et conformement an « modele 
semantique » de Hu et Li, la distance a laquelle se trouve un site est donnee par le 
chemin le plus court vers I’une de ses sorties. On calculera done le chemin optimal vers 
les deux noeuds actifs qui delimitent le segment de destination et Ton ne retiendra que 
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le plus court. C’est a partir de celui-ci que I’on determinera la distance et I’azimut 
des balises decontextualisees. Comme il est illustre sur la figure 9.7, la distance Di sera 
obtenne par sommation des longnenrs des segments qni composent le chemin, et I’azimnt 
9i sera donne par la direction de son premier noend (actif on inactif) : 

/ A = E£i<ii* 

I (f, — arctan 


◄ 

■dJ 

y Source 1 

(Xl^13) 


1 

\ 

i ' di3 

^ible 1 

(xii,yii)^ 



■ 


yi) 

■ Cible 2 


Fig. 9.7 - Donnees de distance et d’orientation ntilisees par les balises contextualisees. 


Enfin, a ctiaqne fois qne le jonenr decide de se deplacer vers le noend actif snivant, la 
prochaine position de la balise decontextualisee est calcnlee, avant qne la camera ne soit 
mise en monvement. Ainsi, comme I’illnstre la fignre 9.8, les positions de la sonrce sonore 
et dn point d’econte penvent etre interpolees de lenr position initiate a lenr position 
finale respective, de fagon parfaitement synctirone. On pent anssi remarqner snr cette 
fignre qne la distance de la sonrce correspond a la distance dmin, definie precedemment, 
lorsqne la camera atteint I’nne des sorties dn site de destination. 



Fig. 9.8 Deplacements synchrones de la balise contextualisee et dn point d’econte. 
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9.3 Les choix de design 

9.3.1 Contenu des sons et ordonnancement temporel 

Les fichiers audio utilises pour les sources sonores sont des enregistrements d’evene- 
ments sonores quotidiens, d’une duree de 5 secondes, qui peuvent etre decrits facilement 
et sans ambigui'te par un ou deux mots. Ils sont supposes suffisamment courts pour, 
qu’une fois joues en boucle « en I’etat », la frequence d’occurrence des evenements per- 
mette une identification quasi permanente, et suffisamment longue pour ne pas etre 
trop « agagante ». Une breve description du contenu semantique des sons utilises est 
presentee dans le tableau 9.2. 


Nom 

Contenu semantique 

Feu d’artifice 

Forte explosion suivie de multiples crepitements puis d’un 
fort craquement. 

Eglise 

Cloche d’eglise sonnant I’angelus. 

Guignol 

Croupe d’enfants criant « Guignol » tons ensemble. 

Hopital 

Sirene d’ambulance. 

Port 

Cris d’une volee de mouettes et ambiance du port en arriere 
plan. 

Travaux 

Son d’un marteau piqueur. 

Stade 

Foule chantant un refrain a I’unisson dans un stade. 

Train 

Passage d’un train. 

Fanfare 

Deux mesures d’un morceau arrange pour une fanfare. 


Tab. 9.2 - Description du contenu semantique des sons utilises pour I’experience 


Tels qu’ils sont, si tons ces fichiers audio etaient joues en boucle, la scene sonore 
resultante rendrait d’une part la tache d’attention selective relativement difficile, et 
provoquerait d’autre part un certain desagrement, voire une reelle fatigue chez le joueur, 
a plus long terme. Ainsi, afin de limiter un recouvrement temporel trop important 
du contenu des sources sonores durant la navigation, il a ete decide que les sons, qui 
n’etaient pas la cible courante, ne seraient pas lus de fagon repetitive, en I’etat. A la 
place, sont joues (en boucle) des fichiers audio de « remplacement », constitues d’une 
premiere occurrence du sample original (duree de 5 secondes), puis d’un silence de 11 
secondes, d’une deuxieme occurrence et d’un silence de 15 secondes (Figure 9.9). Nous 
avons ainsi introduit deux silences de duree differente, afin d’eviter la monotonie d’une 
repetition reguliere. De plus, les occurrences respectives des samples de chacune des 
sources sont decalees de 4 secondes les unes par rapport aux autres. On s’assure, de la 
sorte, qu’il n’y ait pas plus de trois evenements sonores au total (en comptant la cible 
audible en permanence), qui se chevauchent de fagon significative. 

Enfin, apres chaque nouvelle consigne (presentation de la source cible), les lectures 
en boucle des huit fichiers audio de remplaeement et du sample original de la cible sont 
declenchees de fagon synchrone. 
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Fig. 9.9 - Construction des fichiers audio de « remplacement ». Utilises lorsqu’une 
source n’est pas la cible courante, il permettent d’eviter la cacophonie d’un paysage 
sonore trop « riche ». 


9.3.2 Motivation du design graphique 

Le monde virtuel a ete congu de sorte a minimiser les reperes visuels pouvant etre 
mis a profit pour la memorisation de I’emplacement des cibles. Nous esperons ainsi res- 
treindre a la connaissance de la route, le role de la perception visuelle dans la cognition 
spatiale. 



Fig. 9.10 - Maillage 3D de la ville utilise pour le jeu de navigation. 


Tout d’abord, la forme des bdtiments est des plus rudimentaires et il semble qua- 
siment impossible, a moins d’une tres longue experience de renvironnement, de s’y 
reperer a I’aide de I’un d’eux. En effet, comme on pent s’en apercevoir sur la figure 
9.10, les batiments sont de simples polygones reguliers qui ne se distinguent les uns des 
autres que par leur plan an sol. Il est ainsi pen probable que I’emplacement de I’un 
d’eux en particulier puisse etre memorise (surtout en en vue subjective) et participer a 
la connaissance de la configuration (on survey knowledge). 
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Fig. 9.11 - Exemple de textures utilisees pour les batiments (barres d’immeubles et 
entrepots). 


Les textures qui out ete utilisees pour habiller ses batiments sont issues de photo¬ 
graphies de fagades de la ville de Marseille empruntees a un modele 3D, dont France 
Telecom R&D a I’usage, a titre experimental. Or, etant donne la taille d’une telle ville, 
ces textures ne peuvent etre que generiques. En d’autres termes, elles sont toutes une va- 
riante d’une texture canonique, propre a une architecture donnee comme, par exemple, 
la fagade d’une barre d’immeuble, celle d’un entrepot, ou d’un petit immeuble de centre 
ville. Comme I’indiquent les quelques textures illustrees sur la figure 9.11, nous avons 
choisi les deux premieres categories de fagade, car elles nous paraissaient etre les moins 
remarquables. 



Perspective (1) 


Perspective (2) 


Fig. 9.12 - Exemple de vastes perspectives visuelles sur I’environnement. 


Or, cela n’est pas suffisant pour controler de fagon rigoureuse la perception visuelle. 
En effet, comme on pent le constater sur la figure 9.12, le monde etant de taille rela- 
tivement modeste, certains alignements de rue offrent une perspective assez vaste de 
I’environnement. De telles perspectives influengant certainement I’apprentissage de la 
carte, il nous semble important de limiter le champ de perception visuelle au strict 
minimum, soit I’ensemble des chemins possibles et le premier noeud du chemin (corres- 
pondant a une intersection ou un virage selon que le noeud est actif ou inactif). Ainsi, 
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comme on pent s’en rendre compte sur la figure 9.13.b, le monde est volontairement ties 
sombre. Les seules sources de lumiere sont cedes qui illuminent les noeuds directement 
connectes au noeud courant (Figure 9.13.a), ainsi que le noeud courant, lui-meme. 



Fig. 9.13 - Capture d’ecran du jeu final, montrant (a) le positionnement dynamique des 
sources de lumiere directive {spotlight) dans renvironnement et (b) une vue subjective 
de I’environnement ainsi illumine. 


Outre le fait que I’obscurite permette de controler la perception visuelle et contraigne 
le joueur a se concentrer sur les sons qu’il pergoit, c’est aussi un moyen de favoriser 
Timmersion « a moindres frais ». En effet, ce clair-obscur contribue a creer une certaine 
atmosphere et permet, en partie, de dissimuler la pauvrete du design graphique. 

Au final, les seuls elements visuels, qui peuvent etre mis a profit a priori pour 
la connaissance de renvironnement, sont d’une part le marquage de couleur au sol 
indiquant I’une des trois zones (rouge, vert et bleu) et d’autre part, la configuration des 
intersections (le nombre de chemins qui s’y croisent et leur orientation). En outre, le 
monde etant necessairement de taille limitee, les « bords » participeront inevitablement 
a la connaissance plus globale de la carte. 



Chapitre 10 

L’evaluation 


10.1 Design experimental et hypotheses 

10.1.1 Plan d’experience 

Nous souhaitons diversifier au maximum les trajets effectues par les sujets afin de 
minimiser I’influence du parcours sur les observations. En effet, selon rordonnancement 
des consignes, un sujet parcourra potentiellement une distance plus on moins longue 
et explorera plus ou moins I’environnement. Par exemple, s’il cherche successivement 
toutes les cibles d’une meme zone avant de passer a la zone suivante, il parcourra pro- 
bablement une distance plus courte et explorera probablement moins I’environnement 
que s’il doit changer de zone a chaque nouvelle cible. Les sequences de cibles recherchees 
sont alors construites a partir d’un modele qui attribue a une zone un nombre different 
de sites recherches successivement : un seul site a la fois dans la zone 1, deux sites 
successivement dans la zone 2 et trois sites successivement dans la zone 3. Le tableau 

10.1 indique I’ensemble des ordonnancements de zones possibles, respectant cette regie. 


Sujet 

sequence de 

zones 

Sujet 

sequence de 

zones 

1 

Z3 

Z1 

Z2 

Z1 

Z2 

Z1 

6 

Z1 

Z2 

Z3 

Z1 

Z2 

Z1 

2 

Z2 

Z1 

Z2 

Z1 

Z3 

Z1 

7 

Z1 

Z2 

Z1 

Z2 

Z1 

Z3 

3 

Z2 

Z1 

Z3 

Z1 

Z2 

Z1 

8 

Z1 

Z2 

Z1 

Z2 

Z3 

Z1 

4 

Z1 

Z3 

Z1 

Z2 

Z1 

Z2 

9 

Z1 

Z2 

Z1 

Z3 

Z1 

Z2 

5 

Z1 

Z3 

Z2 

Z1 

Z2 

Z1 

10 

Z1 

Z2 

Z1 

Z3 

Z2 

Z1 


Tab. 10.1 - Ordonnancements possibles des zones d’apres le modele defini. 


Par exemple, pour la premiere consigne, le participant, cherchera successivement les 
trois cibles de la zone 3, puis cherchera une cible dans la zone 1, puis deux cibles dans 
la zone 2, a nouveau une cible dans la zone 1, etc. 

On place alors trois sources par zone, comme il est indique sur la figure 10.1, et 
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pour chacun des dix ordonnancements possibles determines precedemment on effectue 
un tirage aleatoire sans remise de Tune des trois cibles de chaque zone. 


ZONE 2 



(1) Feu d'artifice 

(2) Eglise 

(3) Guignol 

(4) Hopitai 

(5) Port 

(6) Travaux 

(7) Stade 

(8) Train 

(9) Fanfare 


Fig. 10.1 - Placement des neufs cibles sonores sur des segments du graphe et indexation 
pour la creation des sequences de consignes. 


Nous disposons de quatre conditions experiment ales issues du croisement des mo- 
dalites de nos deux facteurs {i.e. plan factoriel complet a deux niveaux) : les balises 
binaurales contextualisees (BinCont), binaurales decontextualisees (BinDecont), stereo- 
phoniques contextualisees (SteDecont) et stereophoniques decontextualisees (SteDecont). 
Nous allons done creer quatre groupes (un par condition) de dix sujets (un par sequence 
de consignes). Ainsi chaque sujet ne testant qu’une condition, I’etude de leurs effets sera 
intergroupe. 


10.1.2 Les variables dependantes (observables) 

Efficacite Nous mesurons Vergonomie d’utilisation du dispositif, soit I’efficacite avec 
laquelle le joueur accompli la tache. Pour cela nous enregistrons au cours de I’experience 
I’historique de 1’interaction, soit les changements d’etat (« presse » ou « relache ») des 
quatre touches du clavier (fleches haut, bas, gauche, droite) et les instants auxquels ils 
se sont produits. Bien que nous puissions le deduire de I’historique nous enregistrons 
aussi I’index du noeud courant, I’orientation de la camera (en radian) et I’arrivee a un 
noeud. Les fichiers d’historiques sont alors analyses a I’aide de Matlab, pour le calcul des 
grandeurs suivantes : 

- (LongNorm) La distance parcourue pour trouver la source sonore normalisee par 
la distance optimale (Figure 10.2). 

- (DurNoeud) Le temps total passe a un noeud. 

- (QOM) La quantite de mouvement, definie par la somme des distances angulaires 
« parcourues » a chaque rotation. La vitesse de rotation etant constante (70 ° /s), 
cette variable est proportionnel au temps total passe en rotation. 
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- (DurArret) Le temps total passe a I’arret, a chaque noeud. 

- (Freqe ) Le nombre moyen d’arrets dans une direction donnee (on orientations 
statiques) a chaque noeud, suite aux rotations successives de la camera, dont est 
extraite une distribution des angles d’ecoute (Figure 10.2). 



Orientation statique 


Erreur 
radiate. 


Erreur 
I absolue 


Erreur 

.angulaire 


Longueurdu chemin optimal 


'Point de 
depart 


FEU 

THEATRE DE OUllRtOI 


Longueur du chemin 
parcouru jusqu'^ la 
cible 


Fig. 10.2 - Exemple de mesures realisees a partir des historiques de I’interaction et 
du replacement des cibles sur la carte, apres chaque essai. La figure illustre le chemin 
parcouru pour les quatre premieres cibles, lors du premier essai d’un sujet testant la 
condition {BinDecont). 


Une autre composante de I’efficacite du dispositif (que I’on pourrait qualifier 
d’ ergonomie cognitive) est la connaissance acquise de la configuration du monde virtuel 
(ou survey knowledge), soit la qualite de la representation mentale de I’environnement 
« construite » durant la navigation. Nous tenterons de I’evaluer en demandant au 
participant de replacer sur une carte les neufs cibles sonores (les zones y sont visibles) 
au moyen d’une interface qui apparait des que la derniere cible a ete trouvee. Concre- 
tement, il lui est demande de placer neufs cubes (correspondant a chacune des cibles) 
sur I’un des segments du reseau de route. Les index des segments sont alors enregistres 
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dans un fichier, qui sera lui aussi analyse sous Matlab. Comme il est illustre Figure 
10.2, on calculera : 

- L’erreur de distance absolue (ErrAbs), soil la distance euclidienne entre la posi¬ 
tion de la cible et celle reportee sur la carte. 

- Les erreurs radiales (ErrRad) et angulaires (ErrAng), soit la difference en valeur 
absolue entre les coordonnees polaires de la position de la cible et celle reportee 
sur la carte, calculee relativement an centre de I’environnement {i.e. differences 
d’angle et de rayon entre les deux points). 


Efficience La charge de travail induite par la tache est « auto-evaluee » par le sujet 
apres avoir trouve les neufs sources sonores. Nous utilisons pour cela le NASA-TLX 
[NAS87] qui est une procedure d’evaluation subjective multi-criteres, calculant un in¬ 
dice global de charge de travail, a partir des criteres suivants : 

- (DM) La demande mentale : activite mentale et perceptive requise par la tache 
{e.g. penser, decider, calculer, se souvenir, regarder, ecouter, rechercher, etc.) 

- (DP) La demande physique : activite physique necessaire pour accomplir la tache 
{e.g. pousser, tirer, tourner, controler, activer, etc.). 

- (DT) La demande temporelle : pression temporelle ressentie, due a la cadence 
avec laquelle la tache on les elements de la tache surviennent. 

- (Effort) U effort : ressources requises (physique et mentale) pour accomplir le 
niveau de performance du participant. 

- (Perf) La performance pergue : reussite avec laquelle le participant pense avoir 
accompli I’objectif fixe on la sensation d’etre satisfait de ses performances. 

- (Frust) La frustration : sensation d’avoir manque d’assurance, d’avoir ete decou- 
rage(e), irrite(e), stresse(e) et gene(e) on, an contraire, d’avoir ete sur(e) de soi, 
recompense(e), detendu(e). 

L’auto-evaluation du TLX se fait en deux phases. II s’agit tout d’abord d’evaluer 
individuellement ces 6 criteres sur une echelle de 0 a 100, puis d’effectuer une compa- 
raison par paires, soit de choisir, pour chaque combinaison de deux criteres, celui qui a 
ete le plus pregnant. L’auto-evaluation est, elle aussi, effectuee a I’aide d’une interface 
qui s’afhche des que le report des cibles est termine. Les resultats sont enregistres dans 
un fichier de texte et analyses sous Matlab. L’indice global de charge de travail (TLX) 
est une somme ponderee, calculee de la fagon suivante : 


TLX 


Z]i=i Rate{i)xWeight{i) 
ELi Weight{i) 


on Rate(i) est la note attribuee an i-eme critere lors de la premiere phase de I’auto- 
evaluation et Weight(i) le nombre de fois que ce critere a ete choisi lors de la deuxieme. 
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Ressenti Une fois I’auto-evaluation du TLX terminee, le sujet repond a douze ques¬ 
tions, portant sur ses impressions durant I’experience. Le questionnaire contient tout 
d’abord dix affirmations pouvant etre graduellement confirmees on infirmees sur une 
echelle de 1 (« tout a fait ») a 7 (« pas du tout »). L’ensemble des affirmations est 
consigne dans le tableau 10.2. 


Nom de I’obser- 
vable 

Affirmations 

QualSon 

Par rapport aux sons que vous avez Ihabitude d’entendre 
(CD, Radio, etc.), ceux qui vous ont ete diffuses durant cette 
experience vous ont semble etre de bonne qualite. 

UtilSon 

Les sons que vous avez entendus vous ont semble faciles a 
utiliser pour vous orienter dans I’espace. 

Engage 

Vous vous etes senti(e) engage(e) dans la tache. 

Divert! 

La tache que vous avez realisee vous a paru divertissante. 

Immerge 

Vous vous etes senti(e) immerge(e) dans Tenvironnement so- 
nore. 

Coherent 

Les sons que vous avez entendus vous ont semble coherents 
avec le monde que vous avez explore. 

FacLocSon 

En general, les sons que vous avez entendus vous ont semble 
faciles a localiser dans I’espace. 

Util Vis 

Les informations visuelles vous ont ete utiles pour accomplir 
la tache. 

FacTache 

La tache que vous avez accomplie vous a semble facile. 

AppGnl 

Vous avez apprecie cette experience. 


Tab. 10.2 - Assertions a confirmer on infirmer dans le questionnaire de ressenti. 


Enfin, deux questions finales portent plus particulierement sur la perception de I’effet 
« I’effet son 3D » : 


Nom de I’obser- 
vable 

Question 

EffetSD 

Avez-vous ressenti I’effet son 3D ? 

AppEffetSD 

Si oui avez-vous appreciez cet effet ? 


Tab. 10.3 - Questions portant sur « I’effet son 3D 


10.1.3 Hypotheses 

La manipulation des facteurs experimentaux nous permet de tester un certain nombre 
d’tiypotheses portant sur les dimensions de V utilisabilite, soit Vefficacite, V efficience et 
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la satisfaction (ou plus generalement le ressenti), avec lesquelles le participant accom- 
plit les objectifs qui lui out ete fixes. La validation ou non de ctiaque liypottiese se fera 
a partir d’une analyse statistique appropriee des variables dependantes mesurees pen¬ 
dant I’ensemble du test. Nous allons done preciser, pour chaque hypothese, les variables 
concernees. Nous ne presenterons pas d’hypothese specifique concernant I’interaction 
des facteurs, mais esperons extraire a I’aide d’analyse a posteriori des donnees quelques 
pistes sur le « poids » relatif des facteurs experimentaux. 

Hypotheses liees au facteur Rendu Sonore (RS) Nous ne nous attendons pas 
a ce que ce facteur ait un quelconque effet sur la memorisation de I’emplacement des 
cibles dans I’environnement. Facilitant la perception, plutot que la cognition spatiale, le 
rendu binaural devrait faciliter la tache locale d’orientation [i.e. choisir une direction a 
ctiaque intersection), mais pas la tache globale de navigation. En d’autres termes, il ne 
devrait pas permettre de faire de meilleurs choix, mais de les faire de fagon plus efficace 
et efficiente. Nous nous attendons aussi a observer quelques effets sur le ressenti, etant 
donne la difference de qualite objective des deux dispositifs de rendu. 


Hypothese RSI 

Grace a une meilleure separation des sources sonores, le 
rendu binaural devrait permettre une prise de decision plus 
rapide de la direction a prendre a chaque intersection. Meme 
si I’examen de la litterature ne nous permet pas d’affir- 
mer que I’acuite de localisation est meilleure, nous pouvons 
supposer que les performances pour I’accomplissement de la 
tache sont accrues. 

Observable(s) 

Le temps passe a un noeud devrait etre plus court, ce qui 
devrait etre explique par un temps passe en rotation (ou 
quantite de mouvement) et/ou a I’arret plus faible. 


Hypothese RS2 

Les processus cognitifs d’Analyse de Scene Auditive etant fa- 
cilites, il se pourrait que le rendu binaural diminue la charge 
cognitive. 

Observable(s) 

On devrait observer une diminution de la demande men- 
tale et de Veffort et, plus generalement, de Vindice global de 
charge de travail (ou TLX). 


Hypothese RS3 

Le rendu binaural devrait susciter un ressenti globalement 
plus favorable. 

Observable(s) 

L’appreciation generate (AppGnl) devrait etre meilleure, 
ainsi que la qualite pergue des sons (QualSon). En outre, 
les sons devraient etre juges plus faciles a localiser [FacLoc- 
Son), mais pas necessairement plus faciles a utiliser pour la 
navigation (FacTache). Enfin, on s’attend surtout a ce que 
le sentiment d’immersion (Immerge) et eventuellement d’en- 
gagement dans la tache (Engage) soient accrus. 
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Hypotheses liees au facteur Representation de 1’Information spatiale (RI) 

Le facteur RI, quant a lui, est suppose avoir une influence sur la tache globale de naviga¬ 
tion, mais aussi sur la tache locale d’orientation. En effet la representation contextualisee 
devrait permettre de faire, non seulement, de meilleurs choix d’orientation, mais aussi 
de les faire de fagon plus efficace et efficiente. Cependant avec ce type de balises so- 
nores, la navigation est facilitee a tel point que le ressenti de I’utilisateur ne devrait 
pas manifester de preference franche pour Tune on I’autre des modalites. II se pour- 
rait meme que, malgre I’incoherence objective des balises decontextualisees vis-a-vis du 
contexte environnemental et leur ineflicacite a priori pour la navigation, celles-ci soient 
jugees, globalement, de meilleur qualite. En outre, les balises contextualisees n’apportent 
aucune connaissance supplement air e a la connaissance des itineraires qu’offre deja la 
representation visuelle. 


Hypothese RIl 

Les balises contextualisees indiquant le chemin le plus court 
vers la cible, La longueur du trajet parcouru devrait etre plus 
faible, si ce n’est optimale. 

Observable (s) 

La distance parcourue devrait etre proche de la distance op¬ 
timale. 


Hypothese RI2 

Les balises contextualisees etant toujours dans la direction 
d’une rue, cela implique naturellement des temps de reaction 
plus court, par rapport aux balises decontextualisees, qui sont 
le plus souvent pergues derriere un obstacle. De plus, la vi¬ 
sualisation des intersections offrent certains a priori sur la 
position de la cible. Un tel contexte de perception audiovi- 
suelle devrait rendre la localisation des sources sonores beau- 
coup plus rapide et eventuellement modifier le comportement 
de localisation dynamique (i.e. rotation de la camera) . 

Observable (s) 

De meme que precedemment, le temps passe a un noeud de¬ 
vrait etre plus court, ce qui devrait etre explique par un 
temps passe en rotation (ou quantite de mouvement) et/ou 
a I’arret plus faible. 11 se pourrait aussi que la distribution 
des angles d’ecoute soit differente. 


Hypothese RI3 

Les balises contextualisees permettent de prendre systemati- 
quement la bonne decision sans qu’aucun « effort mental» 
(i.e. la comparaison entre I’azimut de la cible et I’une des 
directions d’une rue) ne soit necessaire. 

Observable (s) 

De meme que precedemment, on devrait observer une dimi¬ 
nution (relativement importante) de la demande mentale et 
de Veffort et, plus generalement, de Vindice global de charge 
de travail (ou TLX). 
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Hypothese RI 4 . 

Non seulement, les balises contextualisees ne participent pas 
a la connaissance spatiale, mais, en outre, la faeilite avec les- 
quelles sont prises les decisions de navigation pourrait dimi- 
nuer 1’attention visuelle accordee a I’environnement. La carte 
mentale construite au cours de Vexperience devrait done etre 
tres peu precise. II se pourrait meme que les sujets, testant 
cette condition experimentale, ne puissent memoriser Vem¬ 
placement des cibles qu ’ils ont precedemment recherchees. 

Observable(s) 

Lors du positionnement des cibles sur la carte, on devrait 
observer des erreurs plus importantes pour les balises contex¬ 
tualisees {erreurs absolues, erreurs radiales et erreurs angu- 
laires). 


Hypothese RI5 

II est probable que les balises contextualisees rendent le jeu 
moins ludique, dans la mesure oil elles simplifient trop la 
tdche. Dans ce cas, Vengagement devrait etre moins impor¬ 
tant, de meme que 1’appreciation generate. 

Observable (s) 

Suite a I’utilisation des balises contextualisees, les sons de- 
vraient etre juges plus faciles a localiser (FacLocSon) et plus 
utiles a la navigation (UtilSon). Globalement, la tache de¬ 
vrait naturellement etre jugee plus facile (FacTache). En 
contrepartie, I’experience pourrait etre jugee moins divertis- 
sante {Diverti), moins engageante (Engage) et, globalement, 
moins appreciable (AppGnl). 


10.1.4 Description de la procedure de test 

Materiel utilise Les participants utilisent un PC, muni d’un processeur Intel Pen¬ 
tium IV HD, cadence a 3 GHz. Afin de respecter les conditions d’usage les plus stan¬ 
dards, aucun materiel professionnel n’a ete utilise, que ce soit pour le rendu graphique 
on sonore. La carte graphique et la carte son sont celles qui etaient fournies avec I’or- 
dinateur, classiquement dedie a un usage courant, bien que relativement « haut de 
gamme » pour sa generation. En revanche, etant donne la duree du test, nous avons 
voulu assurer un maximum de confort d’ecoute. Nous avons done utilise un casque 
ferme, Sony MDR-CD1700 et un ecran cathodique de taille relativement importante 
(19 ponces). 


Les participants Quarante sujets ont ete recrutes dont la moitie sont des chercheurs 
de France Telecom R&D, et les autres, des personnes externes remunerees. Ils ont tons 
entre 15 et 45 ans, ils ne souffrent d’aucun trouble auditif connu et utilisent regulierement 
un ordinateur, que ce soit a leur lieu travail on a leur domicile. 65% sont des hommes 
(resp. 35% sont des femmes) et ils ne jouent, en moyenne, que pen frequemment a des 
jeux video. 
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Deroulement du test Dans un premier temps, les sujets doivent lire le document 
decrivant I’experience (voir Annexe E, les consignes donnees aux participants). Celui-ci 
leur explique les principes du jeu, comment utiliser I’interface pour la navigation, les 
differentes etapes de 1’auto-evaluation et la definition des termes pouvant etre ambigus 
(les six criteres du NASA-TLX, la notion A engagement et Aimmersion). Une fois que 
I’on s’est assure que les consignes avaient bien ete assimilees, le sujet s’entraine a la 
navigation auditive dans un environnement de taille relativement reduite, dans lequel 
est placee une seule cible sonore (le « train »), indiquant la position d’un site, selon la 
condition experimentale que le sujet devait tester. 



Fig. 10.3 - L’environnement d’entrainement 


Comme on pent s’en rendre compte sur la figure 10.3, cet environnement possede toutes 
les caracteristiques de celui qui sera explore durant le test, mise a part la presence de 
zones : les textures, les noeuds doubles, les virages et les obliques. Aucun sujet n’a ren¬ 
contre de probleme particulier pour s’orienter a I’aide du son qu’il entendait, et tons ont 
atteint la cible dans un delai raisonnable. Enfin, I’entrainement termine, les participants 
accomplissent la phase de test proprement dite, soit trois sessions, composees chacune 
de la tache de navigation (recherche successive de neufs cibles sonores) et de la phase de 
post-evaluation (report des cibles sur la carte, NASA-TLX et questionnaire de ressenti). 
A chaque fois, les meme cibles, placees aux memes endroits, sont recherchees dans le 
meme ordre. 


10.2 Analyse des resultats 

10.2.1 Evaluation objective : caracteristiques de I’interaction et carte 
cognitive 

Apres s’etre assure de la normalite de la distribution des donnees, une analyse de 
variance (ANOVA) a mesure repetee a ete realisee sur les variables dependantes carac¬ 
teristiques de I’interaction : la distance parcourue normalisee par la distance optimale. 
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le temps total passe a une intersection, la dnree totale des arrets, la qnantite de mon- 
vements et la distribntion des angles d’econte. Chaqne gronpe presente, ponr nn essai, 
qnatre-vingt-dix realisations de chaqne variable (9 cibles x 10 snjets). Cette analyse 
indiqne nne significativite statistiqne « globale » de I’effet des factenrs inter- et intra- 
groupes. Elle n’indiqne pas les differences specifiqnes entre les modalites de ces factenrs. 
Un test post-hoc HSD de Tukey a done ete realise ponr I’analyse des contrastes. 

Longueur normalisee du chemin parcouru (LongNorm) Nous n’avons pas emis 
d’hypothese sur I’influence du rendu sonore sur cet observable. Nous avons done ana¬ 
lyse I’effet des factenrs experimentaux independamment, en regroupant les conditions 
« deux a deux». Comme prevu, I’ANOVA n’indique pas d’effet significatif du fac- 
teur Rendu Sonore (facteur RS, contextualisation et decontextualisation confondues), 
F(l,358)=0,032, p=0,856, mais un effet significatif du facteur Representation de I’ln- 
formation spatiale (facteur RI, binaurale et stereophonic confondues), F(l,358)=8,921, 
p<0,05. Ainsi, comme I’indique la figure 10.4, les balises contextualisees permettent 
un trajet plus court que les balises decontextualisees (diminution d’environ 5%, en 
moyenne). 



Fig. 10.4 - Fffet du facteur Representation de I’Information spatiale sur la Longueur 
normalisee moyenne du chemin parcouru. 


Cependant, les deux types de balises offrent de relativement bonnes performances, 
puisque la longueur moyenne du chemin parcouru est, dans les deux cas, assez proche 
du chemin optimal {i.e. la distance normalisee est proche de 1). Fn outre, I’analyse ne 
revele aucun effet d’apprentissage, puisque que pour (RS), F(2,716)=l,900, p=0,150 et 
pour {RI), F(2,716)=l,888, p^0,152. 

Temps total passe a une intersection (DurNoeud) Contrairement a I’observable 
precedent, il est interessant de comparer ici les quatre conditions experimentales, plu- 
tot que les modalites de chaqne facteur independamment. Fn effet, les deux factenrs 
etant supposes avoir une influence sur la prise de decision a chaqne intersection, I’etude 
de leur interaction pourrait nous fournir une indication sur leur « poids » relatif. Or, 
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r analyse de variance revele nn effet global hantement significatif de la condition experi- 
mentale snr le temps passe a nne intersection (temps necessaire a la prise de decision), 
F(3,356)=21,763, p<0,001 (Fignre 10.5.a). De meme, I’effet global d’apprentissage, an 
fnr et a mesnre des essais, est hantement significatif, F(2,712)=294,56, p<0,001 (Fignre 
10.5.b). 



(a) (b) 


Fig. 10.5 - Effet global de la condition (a) et de I’essai (b) snr le temps moyen, passe 
a nn intersection. 


On remarqne tont d’abord qne le temps passe a nne intersection diminne de fagon 
beanconp pins importante entre la premiere et la denxieme session (difference d’envi- 
ron 850 ms, soft nne diminntion d’environ 25%), qn’entre la denxieme et la troisieme 
(difference d’environ 300 ms, soit nne diminntion d’environ 10%). Dans les denx cas, la 
comparaison post-hoc indiqne nne difference hantement significative {p<0,001). D’antre 
part, les balises contextualisees diminnent en moyenne le temps de prise de decision d’en¬ 
viron 450 ms, lorsqne le rendn est binanral et d’environ 500 ms, lorsqn’il est stereopho- 
niqne (le test post-hoc HSD de Tuckey indiqne nne difference hantement significative, 
p<0,001, dans les denx cas). Cependant, bien qne le test post-hoc indiqne qne le rendn 
binanral diminne significativement le temps de prise de decision (d’environ 350 ms, en 
moyenne) lorsqne les balises sont decontextualisees (difference hantement significative, 
p<0,001, d’apres le test post-hoc), la difference d’environ 250 ms n’est pins significa¬ 
tive lorsqne les balises sont contextualisees {p—0,215). En ontre, la difference entre les 
conditions « binanrales decontextnalisees » et « stereo contextnalisees » (de 100 ms, 
en moyenne) n’est pas significative {p^ 0,102). Ainsi, malgre le classement, qni semblait 
s’imposer an regard des valenrs moyennes, on ne pent rien affirmer de fagon definitive, 
qnant a I’interaction de nos factenrs experimentanx. 


Quantite de mouvement (QOM) et temps passe a I’arret {DurArret) En 

complement de la precedente analyse, nons avons calcnle tont d’abord la qnantite de 
monvement, soit la somme des angles de tontes les rotations effectnees a chaqne in- 
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tersection. L’analyse de variance indique nn effet global hautement significatif de la 
condition, F(3,356)=24,829, p<0,001 (Fignre 10.6.a). De meme, elle indiqne nn effet 
tiantement significatif de I’essai, F(2,712)=57,984, p<0,001 (Figure 10.6.b). On pent 
remarquer que la quantite de mouvement est quasiment identique (environ 115 °) pour 
les conditions BinCont, BinDecont et SteCont. Seules se distinguent les balises stereo- 
phoniques decontextualisees dont la quantite de mouvement est d’environ 40 ° superieure 
a celle des autres types de balises. Le test post-hoc indique une difference hautement 
significative, p<0,001, avec les trois autres balises. De plus, le temps passe en rotation 
diminue globalement d’un pen plus de 15 ° du premier an deuxieme essai (effet hau¬ 
tement significatif, p<0,001, d’apres le test post-hoc), et d’un pen moins de 10 ° , du 
deuxieme an troisieme (effet significatif, p<0,01, d’apres le test post-hoc). 



Fig. 10.6 - Effet de la condition (a) et de I’essai (b) sur la quantite de mouvements (on 
distance angulaire parcourue) a chaque noeud, en degre. 


Enfin, nous avons calcule la duree totale pendant laquelle en moyenne le sujet res- 
tait immobile a chaque noeud. Comme precedemment, I’ANOVA indique nn effet haute¬ 
ment significatif de la condition, F(3,347)=8,754 (Figure 10.7.a), p<0,001, et de I’essai, 
F(2,694)=292,090, p<0,001 (Figure 10.7.b). II semblerait que Ton observe les memes 
tendances que pour la duree totale passee a chaque noeud. En effet, on observe bien une 
diminution plus importante entre le premier et le deuxieme essai (difference d’environ 
400 ms, soit une diminution d’environ 30%), qu’entre le deuxieme et le troisieme (dif¬ 
ference d’environ 250 ms, soit une diminution d’environ 20%). Cependant, I’effet de la 
condition est sensiblement different, les balises stereophoniques decontextualisees ne sont 
plus cedes qui offrent les plus mauvaises performances. Aussi surprenant que cela puisse 
paraitre, ce sont les balises binaurales decontextualisees qui impliquent apparamment 
les temps d’arret les plus longs a une intersection (tout essai confondu). Cependant, 
on ne doit pas se fier seulement aux apparences, puisque la condition BinCont est la 
seule qui se distingue reellement par ses performances. La difference de temps avec les 
conditions BinDecont et SteDecont est hautement significative (p<0,001). En revanche, 
la difference avec la condition SteCont n’est pas significative {p=0,136). 
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(a) (b) 

Fig. 10.7 - Effet de la condition (a) et de I’essai (b) snr la duree totale des arrets a 
chaque noend. 


Distribution des angles d’ecoute (Freq^) Afin d’affiner I’analyse dn comporte- 
ment des snjets anx intersections, nons avons tente d’estimer les azimuts utiles a la 
localisation dynamique des sources sonores. Connaissant la position de la cible a chaque 
instant et les orientations statiques de la camera, nous avons calcule pour cela la dis¬ 
tribution angulaire des azimuts statiques de la source cible. Or, il s’avere que les snjets 
precedent souvent « par a-coups » , pour pivoter la camera. Tons les azimuts ne cor¬ 
respondent done pas a de veritables « angles d’ecoute ». Ainsi, pour determiner quelle 
etait la contribution d’un tel comportement durant I’interaction et filtrer les donnees de 
fagon adequate, nous avons calcule la distribution des temps d’arret, en echantillonnant 
I’intervalle [0;ls] par pas de 40 ms. Comme I’indique la figure 10.8, il semblerait que 
I’on observe la superposition de deux distributions normales, centrees respectivement 
autour de 100 ms et 300 ms, dont I’intersection supposee est anx environs det = 175 ms. 
Cela correspond approximativement an temps de reaction d’un auditeur a un stimulus 
sonore, qui est, d’apres Brebner et Welford [BW80], de 160 ms. Il nous parait done rai- 
sonnable de ne prendre en compte que les orientations statiques d’une duree superieure 
a cette valeur. De meme (et pour des raisons plus pragmatiques, que nous explique- 
rons par la suite), nous avons filtre les rotations d’une duree inferieure a 175 ms, soit 
de moins de 11,25 ° . Enfin, nous n’avons pas pris en compte les orientations statiques, 
correspondant anx instants d’arrivee et de depart des intersections, puisque les azimuts 
correspondants ne sont pas volontairement choisis, mais imposes par les deplacements. 

En outre, differents travaux semblent indiquer une asymetrie entre les deux oreilles 
pour la perception de stimuli simples^ [MSS06]. Meme si I’etude de tels phenomenes 


^Une certaine dominance de I’oreille droite {REA, pour right-ear advantage) pour la perception de 
logatomes du type consonne-voyelle a ete observee ([ST80], cite dans [MSS06]), qui semble etre le fait 
d’une specialisation de I’hemisphere gauche pour le traitement de la parole (Aire de Broca). Deutsh 
[Deu80] observe aussi une dominance de I’oreille droite pour la perception de sons purs aux frequences 
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Fig. 10.8 - Trace de rhistogramme, pour la determination du seuil de filtrage de la 
duree d’orientation statique. 


semblent hors de notre portee ici, il est necessaire de verifier si I’on observe une even- 
tuelle dominance. Nous avons done dans un premier temps compare le nombre d’arrets 
moyens, respectivement dans les hemispheres gauche (azimuts statiques de I’intervalle 
] -180° ; 0 ° [ ) et droit (azimuts statiques de I’intervalle ] 0° ; 180° [ ). Or, I’analyse 
de variance n’indique aucun effet significatif, F(l,356)=0,0687, p=0,793. Les sujets ne 
s’arretent done pas plus dans une direction que dans une autre. 

N’ayant pas observe de dominance particuliere, il importe peu que la cible se situe 
dans I’hemisphere gauche ou droit. Seule compte, au final, la valeur absolue de V azimut 
statique. Alors que nous souhaitions initialement diviser I’espace angulaire en seize in- 
tervalles reguliers et equitablement repartis (de telle sorte, que le secteur frontal soit 
centre sur 0°), la distribution ne requiert plus qu’un echantillonnage de I’intervalle 
[ -11.25 ° ; 191,25 ° ] par pas de 22,5 ° , soit neufs secteurs angulaires centres respective¬ 
ment autour des azimuts 0 ° , 22,5 ° , 45 ° , 67,5 ° , 90 ° , 111,5 ° , 135 ° , 157,5 ° et 180 ° . 
L’analyse de variance revele un effet croise hautement significatif de la condition et de 
I’azimut, F(24,284)=ll,352, p<0,001. La figure 10.9 presente les distributions moyennes 
de chacun des quatre facteurs experiment aux (les valeurs des dispersions ne sont pas 
affichees, pour des raisons de lisibilite, mais celles-ci sont relativement importantes). 
Malgre un effet global significatif, nous ne pouvons pas nous her aux apparences. Il est 
done necessaire d’effectuer une comparaison post-hoc pour determiner ce qui distingue 
significativement ces distributions. Voici ce que I’on pent remarquer : 

- Les formes des distributions, pour les conditions BinDecont et SteDecont, sont 
extremement similaires. Le test HSD de Tuckey indique que les differences, secteur 


hautes, 


dominance de I’oreille gauche aux frequences basses. 
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Fig. 10.9 - Effet de la condition sur la distribution moyenne des azimuts statiques. 


par secteur, ne sont pas significatives, 1.000 (quel que soit le secteur). 

- On constate une influence flagrante de la contextualisation (facteur RI). Notam- 
ment il semblerait que les balises contextualisees permettent d’utiliser moins fre- 
quemment le voisinage de I’azimut ±45 ° que les balises decontextualisees. Le test 
HSD de Tuckey indique des differences significatives entre la condition BinCont 
et les conditions BinDecont et SteDecont {p<0,05, dans les deux cas); de meme 
la condition SteCont {p<0,05, dans les deux cas). 

- Contrairement aux conditions BinDecont et SteDecont, les formes des distribu¬ 
tions, pour les conditions BinCont et SteCont presentent des dissemblances rela- 
tivement importantes. En particulier, le remplacement du binaural par la stereo- 
phonie pour les balises decontextualisees conduit a une utilisation plus frequente 
des azimuts frontaux (0 °) et laterales (±90 °). Pour le secteur centre sur ±90 ° , 
le test HSD de Tuckey indique une difference hautement significative, p<0.001, 
entre la condition SteCont et les trois autres. Pour le secteur centre sur 0 ° , la 
condition SteCont n’est signiflcativement differente que pour la condition SteDe¬ 
cont (simple tendance, pour la difference avec la condition BinDecont, p=0,061). 
Enfln la difference entre les conditions SteCont et BinCont, n’est pas significative, 
p=0,961. 

On pent done conclure que la contextualisation des balises sonores augmente sensi- 
blement la frequence d’utilisation des azimuts frontaux (an voisinage de 0 °) et diminue 
(de pres de 50%) I’usage de certains azimuts intermediaires, particulierement, an voi¬ 
sinage de ±45 ° . En outre, I’utilisation de la stereophonie augmente (de pres de 50%) 
I’utilisation des azimuts lateraux (±90 °), pour les balises contextualisees. Or, le flltrage 
que nous avons realise nous garanti lorsque les balises sont contextualisees que les effets 
observes pour les azimuts 0 ° et ±90 ° ne sont pas imputables a la position des sources 
sonores^. En effet, pour ce type de balises, les sources sont le plus souvent en position 

’^Nous verrons que la position des sources sonores est, en fait, bien responsable de la saillance 
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frontale ou laterale lorsque le sujet arrive a une intersection et systematiquement fron- 
tales lorsqu’il la quitte. Ainsi, en ne prenant pas en compte la premiere et la derniere 
orientation statique de la camera, et en ne conservant que celle suivant une rotation de 
11,25 ° , on s’assure que le deuxieme et I’avant dernier azimut statique ne sont ni 0 ° , ni 
±90° . 


Rappel de I’emplacement des cibles sur la carte (ErrAbs) L’analyse de va¬ 
riance n’indique aucun effet de la condition experimentale, ni pour I’erreur radiale, 
F(3,356)=,338, p^0,797, ni pour I’erreur angulaire (environ, F(3,356)=l,180, p^0,317. 
En moyenne, I’un et I’autre de ces observables indiquent des performances relativement 
modestes puisqu’en moyenne (toute condition et tout essai confondus) I’erreur radiale 
est d’environ 190 ° et I’erreur angulaire d’environ 50 ° (Cf. Figure 10.11 pour les pro¬ 
portions de ces erreurs, par rapport aux dimensions de la carte). Toutefois, comme on 
pouvait s’y attendre, on observe un effet hautement significatif de I’essai pour I’erreur 
radiale, F(2,716)=14,325, p<0,001, ainsi que pour I’erreur angulaire F(2,712)=14,349, 
p<0,001. L’evolution an corns des essais est la meme pour les deux observables : 1’ame¬ 
lioration est plus importante entre le premier essai et le deuxieme qu’entre le deuxieme 
et le troisieme. 

L’ANOVA n’indique pas non plus d’effet significatif de la condition sur I’erreur abso- 
lue, F(3,356)=l,815, p=0,143. Une fois encore, le rappel de I’emplacement des cibles est 
assez imprecis, puisque I’erreur est d’environ 600, en moyenne (Cf. Figure 10.11 pour la 
proportion de cette erreur, par rapport aux dimensions de la carte). Cependant, le test 
post-hoc HSD de Tuckey indique une difference significative, p<0,05, entre les condi¬ 
tions BinCont et BinDecont. Comme I’indique la figure 10.10.a, la condition BinDecont 
induit une diminution d’environ 15% de I’erreur par rapport a la condition BinCont. 
Enfin, on observe les memes effets d’apprentissage que precedemment. L’ANOVA in¬ 
dique, comme pour les deux autres observables, un effet hautement significatif de I’essai, 
F(2,712)=61,808, p<0,001, mais le test post-hoc nous apprend que seule la difference 
entre le premier et le deuxieme essai Test vraiment (difference hautement significative, 
p<0,001). D’ailleurs, la diminution de I’erreur an deuxieme essai est ici plus impor¬ 
tante, puisqu’elle est d’environ 30%, alors qu’elle ne depassait pas 20% pour les erreurs 
angulaires et radiales (Figure lO.lO.b). 


observee, 


I’entendons ici. 
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remplacement de la cible sur la carte. 


Pour resumer, la figure 10.11 illustre les proportions des ces trois types d’erreurs 
observees (correspondant aux valeurs moyennes, toute condition et tout essai confon- 
dus), par rapport aux dimensions de la carte. On pent remarquer que les limites de ces 
erreurs correspondent approximativement a la taille d’une zone. 



Fig. 10.11 - Illustration de la proportion des erreurs radiales (190, en moyenne), angu- 
laire (50 ° , en moyenne) et absolue (600, en moyenne), tout essai et condition confondus, 
par rapport aux dimensions de la carte. 
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10.2.2 Evaluation subjective : charge de travail et ressenti 

Contrairement aux observables objectifs precedents, les variables etudiees pour reva¬ 
luation subjective de la charge de travail et du questionnaire de ressenti sont mesurees 
sur une echelle ordinale. De plus, les donnees n’etant recueillies qu’une fois la navigation 
achevee, nous ne disposons, par essai, que de dix echantillons pour chaque critere et pour 
chaque condition experiment ale. L’ANOVA a mesures repetees n’est done pas appro- 
priee et on lui preferera 1’alternative non-parametrique fondee sur les rangs, plutot que 
sur les moyennes. On realise done une ANOVA de Kruskall-Wallis pour evaluer I’effet 
de la condition (intergroupe - comparaison de plusieurs echantillons independants) et 
une ANOVA de Friedman, pour evaluer I’effet de I’essai (intragroupe - comparaison de 
plusieurs echantillons apparies). 

L’effet global de la mesure repetee Nous avons effectue une premiere analyse, 
prenant en compte I’ensemble des facteurs inter- et intra-groupes. Cependant, nous 
n’avons obtenu qu’un nombre extremement faible d’observables pour lesquels les effets 
d’apprentissage (intra-groupes) se revelaient significatifs. Nous avons done analyse nos 
donnees une seconde fois, en regroupant I’ensemble des conditions experimentales, afin 
d’obtenir un apergu « global » de I’effet de la repetition sur les evaluations subjectives. 
Les resultats n’indiquent aucun effet de I’essai sur les criteres du NASA-TLX. Seules 
les donnees issues du questionnaire de ressenti sont affectees. En particulier, I’ANOVA 
de Friedman indique un effet de I’essai sur les trois criteres suivants : 

- (QualSon) Les sons paraissent, toutes conditions confondues, de meilleure qualite 
an fur et a mesure des essais. Effet significatif, C'hi^(N=40,dl=2)=7,538, p<0,05. 

- (Immerge) La sensation d’immersion, toutes conditions confondues, aug- 
mente an deuxieme essai et diminue a nouveau an troisieme. Effet significatif, 
Chi^(N=40,dl=2)=6,241 p<0,05. 

- (Coherent) Les sons paraissent, toutes conditions confondues, de plus en 
plus coherents avec I’environnement explore. Effet hautement significatif, 
Chi2(N=40,dl=2)=18,626 p<0,001. 

Ainsi, hormis ces trois observables, on pent considerer que I’essai n’a pas d’influence 
sur les donnees issues du NASA-TLX et du questionnaire de ressenti. Nous ferons done, 
desormais, I’hypothese que chaque nouvelle session conduit a des realisations de variables 
aleatoires independantes des precedentes. Cela nous permet de regrouper I’ensemble des 
essais d’une meme condition, pour I’analyse des effets inter-groupes de I’ANOVA de 
Kruskal-Wallis. 

Effet de la condition sur la charge de travail L’analyse indique un effet haute¬ 
ment significatif de la condition experimentale sur I’indice global de la charge de travail, 
H(3,N=120)=21,430, p<0,001. Comme on pent le remarquer sur la figure 10.12, il sem- 
blerait d’ailleurs que I’on observe le meme effet que celui observe pour le temps de prise 
de decision (Figure 10.5). 
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Fig. 10.12 - Effet de la condition experiment ale snr I’indice globale de charge de travail. 


Cependant, de fagon similaire an test HSD de Tnckey, il est necessaire de realiser 
des comparaisons post-hoc des rangs moyens, ponr conclnre de la significativite statis- 
tiqne des differences specifiqnes. Or, bien qne le test post-hoc indiqne nne difference 
significative entre les conditions SteCont et SteDecont {p<0,05), et nne difference han- 
tement significative entre les conditions SteDecont et BinCont {p<0,001), ancnne antre 
difference n’est significative (on observe tont de meme nne certaine tendance entre les 
conditions BinCont et BinDecont, p<0,l)- Les six antres criteres evalnes lors dn NASA- 
TLX, ponrraient pent-etre nons expliqner les differences obtennes ponr cet indice, en 
pins de nons fonrnir qnelqnes informations snr le ressenti de I’ntilisatenr. 



Fig. 10.13 - Effet de la condition experimentale snr I’effort. 


Tont d’abord, I’ANOVA de Krnskal-Wallis, indiqne nn effet significatif de la condi¬ 
tion snr I’effort, H(3,N=120)=13,831, p<0,05. Meme s’il est moins pregnant, nons aime- 
rions y voir nn effet similaire a celni observe ponr I’indice de charge de travail (Fignre 
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10.13) et, par extension, similaire a celui observe ponr le temps de prise de decision 
(Fignre 10.5). Cependant, apres comparaisons post-hoc des rangs moyens, il s’avere qne 
senles les conditions SteDecont et BinCont sont significativement differentes, p<0,05 
(on observe tont de meme une certaine tendance entre les conditions BinCont et Bin- 
Decont p<0,l)- 



Fig. 10.14 - Effet de la condition experimentale snr la demande physique. 


On observe, de plus, un effet significatif de la condition snr la demande physique, 
H(3,N=120)=11,748, p<0,05. Comme on pent le constater snr la figure 10.14, il se- 
rait tentant de faire le rapprochement avec la tendance observee pour la quantite de 
mouvements. Cependant, a la difference de ce dernier observable, la comparaison post- 
hoc des conditions SteCont et SteDecont n’est pas significative, p^l.OOO. Seule Test, la 
difference entre les conditions SteDecont et BinCont {p<0,05). 
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Fig. 10.15 - Effet de la condition experimentale snr la performance pergue. 



BinCont BinDecont SteCont SteDecont 


Enfin, le dernier effet significatif, est celui observe pour la performance pergue, 
H(3,N=120)=13,032, p<0,05. Comme on pent le remarquer snr la figure 10.15, les ba- 
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Uses contextualisees binaurales et stereophoniques sont, a priori, celles qui donnent, 
respectivement, la plus grande et la plus faible impression de performance. D’ailleurs, la 
comparaison post-hoc entre ces deux conditions est la seule qui soit significative, p<0,05. 

Pour conclure, le tableau 10.4 recapitule les valeurs medianes de chacun des sept 
criteres (toute condition confondue), evalues lors du NASA-TLX. Nous y indiquons, 
d’une part, la significativite statistique de I’ANOVA de Kruskal-Wallis et, d’autre part, 
les couples de conditions experiment ales ayant des effets significativement differents, 
apres comparaison post-hoc des rangs moyens. 


Critere 

Mediane 

ANOVA 

Post-hoc 

TLX 

27,5/100 

S. 

SteDecont > Ste Cont, 
SteDecont> BinCont, 
BinDecont > BinCont 

Effort 

48,5/100 

s. 

SteDecont> BinCont, 
BinDecont > BinCont 

Performance 

75/100 

s. 

Ste Cont < Bin Cont 

Demande Physique 

15/100 

s. 

SteDecont > BinDecont 

Demande Mentale 

65/100 

N.S. 

— 

Demande Temporelle 

35/100 

N.S. 


Frustration 

15/100 

N.S. 



Tab. 10.4 - Resume de I’analyse des donnees du NASA-TLX (les signes « inferieur » 
et « superieur » , sont utilises pour indiquer I’ordre des rangs obtenus respectivement 
pour les deux conditions comparees). 


Effet de la condition sur le ressenti Les criteres, pour lesquels un effet signifi- 
catif de la condition a pu etre observe, sont tons lies de fagon plus ou moins expli- 
cite, a la performance du sujet durant I’experience. En effet, I’ANOVA de Kruskal- 
Wallis indique, dans un premier temps, un effet tiautement significatif de la condition, 
H(3,N=120)=25,565, p<0,001, sur le critere FacLocSon, relatif a la facilite de localisa¬ 
tion de sons. Comme on pent le constater sur la figure 10.16, les participants ont trouve 
dans I’ensemble que la localisation etait relativement aisee (la mediane, toute condition 
confondue, est de 2). D’ailleurs, comme on pouvait s’y attendre, les balises binaurales 
contextualisees (condition BinCont ) sont jugees plus faciles a localiser. D’apres la com¬ 
paraison post-hoc des rangs moyens, I’ecart avec la condition SteDecont est tiautement 
significatif, p>0,001, tandis qu’il est simplement significatif, p<0,05, avec les conditions 
BinDecont et SteCont. 
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Fig. 10.16 - Effet de la condition sur la facilite avec laquelle les sources sonores sont 
localisees (1 = Tout a fait facile, 7 = Pas du tout facile). 


Indiquant un jugement plus global de la performance durant la tache, revaluation du 
critere UtilSon manifesto, elle aussi, un effet tiautement significatif de la condition expe- 
rimentale, H(3,N= 120)=15,425, p<0,001. Encore une fois, il semble relativement aise 
aux participants de s’orienter a I’aide des balises sonores (mediane de 2). Cependant, 
en observant la figure 10.17, on remarque tout d’abord que I’etendue des intervalles 
interquartiles est un pen plus grande que precedemment (notamment pour les condi¬ 
tions BinDecont et SteDecont), ce qui est revelateur d’un plus grand desaccord entre 
individus. En outre, on observerait le meme effet si le rang de la condition SteDecont 
n’etait pas aussi faible. D’ailleurs, cette fois-ci, le test post-hoc n’est pas significatif pour 
cette condition (simple tendance, p<0,l). 



Fig. 10.17 - Effet de la condition sur la facilite avec laquelle les sources sonores sont 
utilisees pour s’orienter (1 = Tout a fait facile, 7 = Pas du tout facile). 
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S’agissant de la facilite de la tache proprement dite, I’effet est a nouveau hautement 
significatif, H(3,N=120)=16,773, p=0,001. Cette fois-ci la mediane du groupe testant la 
condition BinCont est la meme que celle des groupes testant les conditions BinDecont 
et SteCont (Figure 10.18). De plus, bien que son rang soit toujours inferieur a celui 
des autres conditions, la difference n’est significative qu’avec la condition SteDecont, 
p<0,05. Ainsi, il semblerait qu’a mesure que les criteres deviennent plus « generaux » 
les differences entre conditions soient de moins en moins significatives. Cela parait assez 
coherent, dans la mesure on d’autres facteurs plus propres a I’individu sont sans aucun 
doute pris en consideration. 



Fig. 10.18 - Effet de la condition sur la facilite avec laquelle la tache a ete accomplie 
(1 = Tout a fait facile, 7 = Pas du tout facile). 


Enfin, L’ANOVA de Kruskal-Wallis indique un effet significatif de la condition sur 
I’appreciation generate, H(3,N=120)=9,013, p<0,05. Si Ton s’en tient a I’observation 
des rangs moyens, on remarque que les balises binaurales, qu’elles soient contextuali- 
sees on non, sont cedes qui contribuent le plus a I’appreciation globale de la tache. Le 
jugement est relativement unanime, puisqu’il n’y a pas d’ecart entre le premier et le 
troisieme quartile, pour les conditions BinCont et BinDecont. Ainsi, meme si la valeur 
de la mediane est identique quelle que soit la condition, les differences semblent se jouer 
sur la dispersion des donnees. Cependant, la comparaison post-hoc, revele qu’aucune 
des differences observees n’est significative (pas meme une tendance). 

Pour conclure, le tableau 10.5, recapitule les valeurs medianes des differents criteres 
du questionnaire de ressenti (toute condition confondue). Comme pour le NASA-TLX, 
nous y rappelons d’une part la significativite statistique de I’ANOVA de Kruskal-Wallis 
et, d’autre part les couples de conditions experimentales ayant des effets significative- 
ment differents, apres comparaison post-hoc des rangs moyens. 
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Critere 

Mediane 

ANOVA 

Post-hoc 

FacLocSon 

2/7 

S. 

BinCont<BinDecont, 
BinCont< SteConh 
BinCont<SteDecont 

UtilSon 

2/7 

s. 

BinCont<BinDecont, 
BinCont< SteCont 

FacTache 

2/7 

s. 

BinCont<SteDecont 

AppGnl 

1/7 

s. 

BinCont et BinDecont 
out le rang le plus faible, 
mais post-hoc N.S. 

QualSon 

2/7 

N.S. 

— 

Engage 

1/7 

N.S. 


Diverti 

2/7 

N.S. 


Immerge 

2/7 

N.S. 


Coherent 

2/7 

N.S. 


UtilVis 

4/7 

N.S. 


EffetSD 

1/2 

N.S. 


AppEffetSD 

1/7 

N.S. 



Tab. 10.5 - Resume de I’analyse des donnees du questionnaire de ressenti (les signes 
« inferieur » et « superieur » , sont utilises pour indiquer I’ordre des rangs obtenus 
respectivement pour les deux conditions). 


10.3 Complements d’analyse, interpretation et discussion 

10.3.1 Preambule a I’interpretation des resultats 

Face a une telle abondance, il est necessaire de faire un premier bilan des resultats 
obtenus et mettre en evidence ceux qui nous permettent de conclure le plus categorique- 
ment possible. Or, malgre des effets globalement significatifs (d’apres I’ANOVA para- 
metrique on non-parametrique) sur une grande majorite de nos variables dependantes, 
force est de constater que I’interaction des facteurs experimentaux n’a pas conduit aux 
contrastes escomptes. En effet, meme si les differences de moyenne on de rang correspon- 
daient le plus souvent a nos attentes, les comparaisons post-hoc n’indiquaient generale- 
ment qu’un nombre limite de differences statistiquement significatives. Toutefois, de par 
la nature des conditions experiment ales impliquees, certaines comparaisons peuvent in- 
duire des differences systematiquement plus importantes que d’autres. Comme I’indique 
le tableau 10.6, c’est le cas notamment de la comparaison BinCont-SteDecont qui par- 
ticipe a la majorite des effets significatifs obtenus lors de I’analyse post-hoc. A I’inverse, 
mises a part les variables extraites de la distribution des « angles d’ecoute » (Freqo, 
Freq 45 et Freqgo), la comparaison BinDecont-SteCont n’est responsable d’aucune des 
differences significatives observees. 
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BinCont 

BinDecont 

SteCont 

SteDecont 

BinCont 

— 

(1) DnrNoend 

(2) Dnr Arret 
( )Freq45 

(3) ErrAbs 

(4) FacLoc 

(5) UtilSon 

( )Freq9o 

(1) FacLoc 

(2) UtilSon 

(1) DnrNoend 

(2) QOM 

(3) DnrArret 
( )Freq9o 

(4) TLX 

(5) Effort 

(6) DM 

(7) FacLoc 

(8) FacTactie 

BinDecont 

(1) DnrNoend 

(2) Dnr Arret 
( )Freq45 

(3) ErrAbs 

(4) FacLoc 

(5) UtilSon 

— 

( )Freqo 
( )Freq45 
( )Freq9o 

(1) DnrNoend 

(2) QOM 

SteCont 

( )Freq9o 

(1) FacLoc 

(2) UtilSon 

( )Freqo 
( )Freq45 
( )Freq9o 

— 

(1) DnrNoend 

(2) QOM 
( )Freq45 
( )Freq9o 
( )Freqo 

(3) TLX 

SteDecont 

(1) DnrNoend 

(2) QOM 

(3) DnrArret 
( )Freq9o 

(4) TLX 

(5) Effort 

(6) DM 

(7) FacLoc 

(8) FacTache 

(1) DnrNoend 

(2) QOM 

(1) DnrNoend 

(2) QOM 
( )Freqo 

( )Freq45 
( )Freq9o 

(3) TLX 

— 


Tab. 10.6 - Recapitulatif des effets observes, tant pour les variables dependantes ob¬ 
jectives (en rouge) que subjectives. Pour chaque paire de conditions experimentales, on 
dresse la liste des observables ayant manifeste nne difference significative de moyenne 
on de rang. 
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Get etat des choses n’est pas si surprenant si I’on retient I’hypothese que le rendu 
binaural et la representation contextualisee sont, dans les limites de leurs facteurs 
respectifs, les modalites conduisant a la plus grande utilisabilite . 



Contextualise -|- 

Decontextualisee — 

Binaural -|- 

BinCont -f- -f 

BinDecont H— 

Stereophonie — 

SteCont -t- — 

SteDecont- 


Tab. 10.7 - Hypothese de I’effet de I’interaction des facteurs experimentaux sur I’uti- 

lisabilite : tres favorable (++), tres pen favorable (-) et plus on moins favorable 

(+-)• 


En effet, s’il en est ainsi (Tableau 10.7), comparer les balises contextualisees binau- 
rales et les balises decontextualisees stereophoniques {BinCont-SteDecont) revient en 
quelque sorte a comparer les dispositifs offrant respectivement la « meilleure » et la 
« pire » situation d’usage. Encore faut-il s’interroger sur le reel benefice (on deficit) 
qu’induit la combinaison des « meilleures » (on des « pires » ) modalites. La compa- 
raison des conditions BinDecont et SteCont, quant a elle, est sensee rendre compte du 
« poids » relatif des facteurs experimentaux. En effet, cette comparaison pose le pro- 
bleme dans les termes suivants : est-il preferable dans notre contexte (une perception 
auditive des cibles et une perception visuelle de la configuration locale de I’environne- 
ment) d’indiquer de fagon pen precise (rendu stereophonique) le chemin exact vers la 
cible (representation contextualisee), on d’indiquer de fagon precise (rendu binaural) 
une vague indication de direction (representation decontextualisee) ? Maltieureusement, 
on ne pent s’appuyer sur aucune difference significative pour y apporter un quelconque 
element de reponse. Deux possibilites s’offrent alors a nous : 

- soit I’absence de contraste indique un certain equilibre, auquel cas il se pourrait 
que les deux facteurs ne soient tout simplement pas comparables et doivent etre 
traites independamment; 

- soit il faut chercher ailleurs les indices d’un eventuel desequilibre. 

Cependant, il est un pen premature de proposer une interpretation des effets de I’in- 
teraction des facteurs experimentaux. Verifions, tout d’abord, si le rendu binaural et la 
representation contextualisee sont veritablement dans le contexte de leurs facteurs res¬ 
pectifs les modalites conduisant a la plus grande utilisabilite pour la navigation auditive 
dans un environnement complexe. Nous avons done analyse I’effet des facteurs experi¬ 
mentaux RI et RS, independamment, en regroupant deux a deux nos quatre conditions. 
Ignorant ainsi les effets specifiques, les resultats sont cette fois-ci incontestablement si- 
gnificatifs pour la quasi-totalite des observables precedents (Tableau 10.8 et Tableau 
10.9). 
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Critere 

Observation 

Effet courant 

LongNorm 

La contextualisation des ba- 
lises sonores diminue d’envi¬ 
ron 5% la longueur normalisee 
du chemin parcouru. 

(S.) F(l,358)^8,921, p<0,05 

DurNoeud 

La contextualisation diminue 
d’environ 20% (environ 500 
ms) le temps passe a une in¬ 
tersection. 

(H.S.) F(l,358)=41,036, p<0,001 

QOM 

La contextualisation diminue 
d’environ 15% (environ 20 °) 
la distance angulaire par con- 
rue (on quantite de mouve- 
ment) a une intersection. 

(H.S.) F(l,358)=27,021, p<0,001 

Dur Arret 

La contextualisation dimi¬ 
nue d’environ 15% (environ 
250 ms) le temps d’arret total. 

(H.S.) F(l,349)=19,748, p<0,001 

Freqo 

Freq45 

La contextualisation aug- 
mente d’environ 40% la 
frequence des azimuts autour 
de 0 ° et diminue d’environ 
50% la frequence des azimuts 
autour de ±45 ° . 

Effet croise Condition x Secteur : 
(H.S.) F(8,286)=27,564, p<0,001 

Post-hoc 0° : {S.) p<0,05 

Post-hoc 45 ° : (H.S.) p<0,001 

TLX 

La contextualisation diminue 
de 30% I’indice global de 
charge de travail. 

(H.S.) H(1,N=120)=14,440, p<0,001 

Effort 

La contextualisation sonore 
diminue de 20% I’impression 
d'effort necessaire pour ac- 
complir la tache. 

(S.) H(1,N=120)=7,580 p<0,05 

FacLoc 

La contextualisation renforce 
I’impression de facilite, avec 
laquelle les sources sont loca- 
lisees. 

(S.) H(1,N=120)=9,687, p<0,05 

UtilSon 

La contextualisation renforce 
I’impression de facilite, avec 
laquelle les sources sont utili- 
sees pour s’orienter dans I’es- 
pace. 

(S.) H(1,N=120)=5,460, p<0,05 

FacTache 

La contextualisation renforce 
I’impression de facilite de la 
tache de navigation. 

(S.) H(1,N=120)=8,115, p<0,05 


Tab. 10.8 - Les effets du facteur Representation de I’lnformation spatiale {S. pour 
« significatif » et H.S. pour « hautement significatif » ). Les observables en rouge sont 
ceux qui n’ont pas ete significativement affectes par le facteur RS. 
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Critere 

Observation 

Effet courant 

DurNoeud 

Le binaural diminue d’environ 
10% (environ 300 ms) le temps 
passe a une intersection. 

(H.S.) F(l,358)=12,886, p<0,001 

QOM 

Le binaural diminue d’environ 
15% (environ 20 °) la distance 
angulaire parcourue (on quan¬ 
tity de mouvement) a une in¬ 
tersection. 

(H.S.) F(l,358)^26,781, p<0,001 

TLX 

Le binaural diminue d’environ 
20% I’indice global de charge 
de travail. 

(S.) H(1,N=120)=6,984, p<0,05 

Effort 

Le binaural diminue d’envi¬ 
ron 20% I’impression d’effort 
necessaire pour accomplir la 
tache. 

(S.) H(1,N=120)=6,346, p<0,05 

DP 

Le binaural diminue d’environ 
50% I’impression de demande 
physique durant la tache. 

(S.) H(1,N= 120)=6,320, p<0,05 

Perf 

Le binaural augmente d’en¬ 
viron 10% I’impression de 
performance avec laquelle la 
tache est accomplie. 

(S.) H(1,N=120)=8,035, p<0,05 

FacLoc 

Le binaural renforce I’impres¬ 
sion de facility avec laquelle les 
sources sont localisyes. 

(H.S.) H(1,N=120)=12,037, p<0,001 

FacTache 

Le binaural renforce I’impres¬ 
sion de facility de la tache de 
navigation. 

(S.) H(1,N=120)=7,724, p<0,05 

EffetSD 

Le binaural renforce I’impres¬ 
sion d’effet son 3D. 

(S.) H(1,N=120)=8,400, p<0,05 

AppGnl 

Le binaural amyliore I’appry- 
ciation gynyrale de I’expy- 
rience. 

(S.) H(1,N=120)=4,103, p<0,05 


Tab. 10.9 - Les effets du facteur Rendu Sonore {S. pour « significatif » et H.S. pour 
« hautement significatif » ). Les observables en bleu sont ceux qui n’ont pas ete signifi- 
cativement affectes par le facteur RI. 
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Comme nous I’avions suppose, que ce soil en termes de performance objective, 
de charge mentale on de ressenti, la representation contextualisee et le rendu binaural 
obtiennent systematiquement les meilleurs resultats . On remarque tout d’abord que la 
difference observee pour I’erreur absolue n’est plus verifiee lorsque I’on regroupe les 
conditions BinCont et SteCont, ce qui remet quelque peu en cause la validite du resul- 
tat prealablement obtenu. Ensuite, non seulement les differences specifiques observees 
precedemment se generalisent, mais, de plus, certains effets qui n’avaient pu etre ob¬ 
serves, sont desormais significatifs. C’est le cas, notamment, pour le ressenti, puisqu’on 
observe ici un effet du facteur RS sur I’impression d’effet son 3D et 1’appreciation ge¬ 
nerate de I’experience. Fort de ces resultats, nous allons pouvoir entrer dans les details 
de I’interpretation des differents effets observes dus tant aux facteurs eux-memes qu’a 
leur interaction. 

10.3.2 Interpretation des effets des facteurs RI et RS 

En premier lieu, on constate que la premiere tiypottiese {RIl) a ete validee; In 
contextualisation des balises sonores permet bien de reduire la longueur du chemin 
parcouru jusqu’a la cible. Cependant, nous ne nous attendions pas a un tel niveau de 
performance des balises decontextualisees . II semblerait done que la navigation n’ait glo- 
balement pas pose de difficulte particuliere. Des differences plus importantes auraient 
sans doute ete observees, si les erreurs d’orientation avaient ete plus penalisantes {e.g. si 
le reseau de route avait ete plus complexe on I’environnement plus vaste). Malgre tout, 
la consigne etant explicitement de trouver la source sonore le plus rapidement possible, 
il semblerait que les sujets aient plutot cherche a minimiser le temps passe aux intersec¬ 
tions, plutot qu’a minimiser la distance parcourue. En effet, conformement a I’liypottiese 
{RI2), les balises contextualisees ont bien permis de reduire le temps necessaire a la prise 

de decision des orientations de navigation. A priori, il semblerait logique que cela soit 
du a une diminution du temps passe en rotation, done a une reduction de la quan- 
tite de mouvements necessaire a la localisation dynamique des sources sonores (QOM). 
Pourtant, tout n’est pas aussi simple puisque nous n’avons pas observe de difference 
significative entre les balises contextualisees et decontextualisees lorsque le rendu sonore 
etait binaural (Figure 10.6.a). Cela pourrait done etre imputable a la duree des arrets a 
chaque intersection, mais cette fois-ci nous n’avons pas observe de difference significa¬ 
tive pour le rendu stereophonique (Figure 10.7.a). L’analyse de la distribution des angles 
d’ecoute pourrait nous donner quelques indications, nous permettant de comprendre ce 
« desequilibre » des effets. 


10.3.2.1 Comportement aux intersections avec des balises contextualisees 

Comme nous I’avons indique dans le tableau 10.8, la contextualisation, toutes tech¬ 
niques de rendu sonore confondues, augmente d’environ 40% la frequence d’utilisation 
des azimuts frontaux (0 °) et diminue d’environ 50% la frequence d’utilisation des azi- 
muts an voisinage de ±45 ° . De plus, bien qu’un peu moins utilises, il s’avere que les 
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azimuts lateraux (voisinage de ±90 °), sont aussi mis a profit relativement frequem- 
ment. D’ailleurs, si Ton se souvient des distributions des conditions BinCont et SteCont 
(Figure 10.9), nous avions remarque que le rendu stereophonique impliquait un usage 
bien plus frequent de ce secteur, que ne le necessitait le rendu binaural. Pour tenter 
d’en expliquer les raisons, il nous parait judicieux dans un premier temps de determiner 
quelle est I’influence de la position de la source sur le comportement de localisation 
dynamique. Comme il est illustre Figure 10.19, nous avons done calcule les trois dis¬ 
tributions des conditions BinCont et SteCont, correspondant, respectivement, aux cas 
ou la source sonore se trouve en position frontale, oblique et laterale, lorsque le sujet 
arrivait a une intersection. 



0° ,22,5° 45° ,67,5° 90° 0° ,22,5° 45° -67,5° .90° 0° ,22,5° 45° ,67,5° ,90° 


Fig. 10.19 - Effet de I’azimut initial de la source (frontale, oblique ou laterale) sur 
la frequence d’utilisation des azimuts statiques entre 0 ° et ±90 ° , lorsque le rendu est 
binaural {BinCont) et stereophonique {SteCont). 


Avant de proposer une interpretation des distributions obtenues, precisons ce que 
nous entendons par « source laterale », « source frontale » et « source oblique » : 

- Une source est dite « frontale », si son azimut, au premier instant du sujet sur 
un noeud, appartient a I’intervalle [ -11,25 ° ; 11,25 ° ] ou [ 168,75 ° ; 191,25 ° ]. Il 
serait done plus juste de dire qu’elle est dans I’axe de la position frontale, puisque 
la source peut etre, soit devant, soit derriere I’auditeur. D’ailleurs, elle est reelle- 
ment en position frontale, dans le cas general, puisque les balises contextualisees 
n’indiquent jamais en cours de navigation de rebrousser chemin. Cependant, le 
sujet repart toujours d’ou il s’est arrete et vers la direction dans laquelle il s’est 
arrete. Lorsqu’une nouvelle consigne lui est presentee, il se peut que le chemin 
vers la nouvelle cible se trouve derriere lui. 

- Une source est dite « laterale », si son azimut, au premier instant du sujet sur un 
noeud, appartient a I’intervalle [ 78,75 ° ; 101,25 ° ] ou [ -101,25 ° ; -78,75 ° ]. Comme 
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I’avions deja mentionne, pour le calcul de la distribution, une source sonore peut 
se trouver, indifferemment, a gauche ou a droite. 

- Enfin, une source est dite « oblique » dans tons les autres cas. Cette situation 
est due aux differentes rues en biais que nous avons introduites dans I’environne- 
ment (voir la carte de I’environnement, Figure 8.7). Contrairement aux sources 
frontales, il est possible qu’en cours de navigation la source soit dans I’hemisphere 
arriere. En considerant que la camera soit orientee face a la source, I’azimut moyen 
est de ±45 ° , I’azimut minimum de ±30 ° et I’azimut maximum de ±60 ° . 

Si la source sonore est en position frontale, lorsque le sujet arrive a une intersection, 
les indices interauraux sont identiques, et il semblerait que le sujet ressente tres souvent 
le besoin de confirmer I’azimut pergu par une ou plusieurs rotations de la camera. 
D’apres les videos enregistrees pendant I’experience, le comportement typique observe 
est nn mouvement de va-et-vient de la camera, de droite a gauche et de gauche a droite 
(et reciproquement), de sorte a « tendre une oreille », puis I’autre, dans la direction de 
la source (Figure 10.20). 



Fig. 10.20 - Comportement typique du sujet pour la localisation dynamique d’une 
source frontale. 


La distribution (Figure 10.19) confirme cette constatation, puisque I’on observe un 
usage relativement frequent des azimuts superieurs a ±33,75 ° {i.e. la borne inferieure 
de I’intervalle centre sur I’azimut ±45 °). C’est d’ailleurs a partir de ce secteur que se 
distinguent les rendus binauraux et stereophoniques. En effet, on peut constater que le 
rendu stereophonique necessite en moyenne des rotations de plus grande ampleur et le 
plus souvent « maximales » {i.e. orientation de ±90 ° , correspondant aux plus grandes 
differences interaurales). On pourrait interpreter ce resultat comme etant la consequence 
du fait qu’ un changement d’hemisphere, utilise comme indice pour confirmer I’azimut 
de la source, est detecte plus rapidement {i.e. meilleur temps de reaction) ou avec plus 
de precision {i.e. meilleure acuite de localisation), grace a la synthese binaurale (diffe¬ 
rence hautement significative d’apres le test post-hoc, p<0,001, pour le secteur centre 
sur I’azimut ±90 °). Cependant, meme si I’hypothese generate RSI est verifiee, rien ne 
nous permet de valider Tune ou I’autre de ces hypotheses en particulier. 

En outre, il suffit parfois d’une seule rotation pour que le sujet prenne la decision 
de passer a I’intersection suivante; parfois meme aucune. D’apres les enregistrements 
video, c’est le cas notamment lorsque la source etait deja en position frontale au noeud 







194 


L ’evaluation 


precedent. En fait, il est vraisemblable que ces rotations soient dues en partie a un 
manque d’assurance et qu’elles ne soient pas necessairement indispensables . Le carac- 
tere inaccoutume de la tache de navigation auditive et la consigne de rapidite rendent 
peut-etre le comportement un pen « caricatural », du moins dans un premier temps. En 
effet, nous avons observe precedemment une diminution de la quantite de mouvements 
de 30 ° en moyenne (toute condition confondue), entre le premier et le troisieme essai 
(Figure 10.6.b). De plus, meme si les differences entre les conditions ne sont pas si- 
gnificatives, I’analyse des effets d’apprentissage sur la distribution semble indiquer que 
seules quelques rares rotations sont effectuees an troisieme essai lorsque le rendu est 
binaural (condition BinCont, Figure 10.21). En revanche, les effets de I’imprecision du 
rendu stereophonique semblent persister, puisque Ton observe toujours une utilisation 
relativement frequente des azimuts an voisinage de ±90 ° (le test post-hoc indique que 
la difference entre les secteurs centres respectivement sur les azimuts ±67,5 ° et ±90 ° est 
significative pour le troisieme essai, p<0,05). 
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Fig. 10.21 - Effet de I’essai sur la distribution des angles azimuts statiques, lorsque la 
source est en position frontale. 
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Si la source sonore est en position laterale, lorsque le sujet arrive a une intersection 
differences interaurales sont maximales, ce qui rend la tache de localisation des sources 
sonores relativement aisee. De plus, le sujet ayant un apergu de I’ensemble des azimuts 
possibles, il est probable que la congruence des indices visuels et auditifs lui permette 
de localiser la source sonore des les premiers instants avec une certaine assurance . Il est 
meme possible que la direction de provenance du son soit quelque pen anticipee, grace 
an mouvement des sources provoque par I’interpolation entre deux positions. Ainsi, il 
n’est pas surprenant de constater, a I’inverse du cas precedent, un usage pen frequent, 
voire anecdotique, des azimuts statiques superieurs a ±33,75 ° {i.e. la borne superieure 
de I’intervalle centre sur I’azimut ±22,5 °). On pent done supposer, qu’en general une 
seule rotation est necessaire {i.e. celle qui I’oriente dans la direction du chemin qu’il 
vent suivre), ce qui implique qu’aucun azimut statique n’est comptabilise (frequence 
« nulle ») puisque nous ne prenons pas en compte le dernier arret de la camera. Cela 
expliquerait pourquoi nous obtenons des valeurs aussi faibles (inferieures a lorsque 
I’on calcule la moyenne du nombre d’arrets sur I’ensemble des noeuds d’un parcours^. 

®Pour les trois distributions (Figure 10.19), correspondant aux trois positions possibles de la source 
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Cependant, cela n’explique pas pourquoi on observe un maximum, an voisinage de I’azi- 
mut 0 ° . Or, apres observation des enregistrements video, trois types de comportement 
nous paraissent assez caracteristiques (Figure 10.22) : 

- (Type 1) II est possible que la premiere rotation effectuee pour s’orienter vers la 
cible ne soit pas tres precise et soit superieure a 90 ° , mais inferieure a 101,25 ° (on 
inferieure a 90 °, mais superieure a 78,75 °). Normalement, les sujets n’ont pas a 
ajuster I’orientation de la camera puisque le systeme choisit lui-meme le chemin 
dont la direction est la plus proche de I’orientation de la camera. Cependant, il 
pent leur arriver d’effectuer tout de meme une deuxieme rotation pour « se mettre 
dans I’axe »avant d’amorcer la translation vers I’intersection suivante. Ainsi, la 
premiere rotation est comptabilisee comme un azimut statique an voisinage de 
0 ° . II est aussi probable que la rotation soit encore plus imprecise, et qu’elle 
s’arrete pour un azimut superieur a ± 11,25 ° . L’orientation statique est alors 
comptabilisee dans le secteur centre sur ±22,5 °. 

- (Type 2) Une fois face a la source il arrive que le sujet ressente malgre tout le 
besoin de confirmer 1’azimut pergu par un mouvement de va-et-vient similaire a 
celui observe precedemment. Les sujets marquent alors un arret intermediaire an 
voisinage de 1’azimut 0 ° qui est comptabilise lui aussi. 

- (Type 3) Le sujet ne marque pas necessairement d’arret face a la source, lorsqu’il 
ressent le besoin de pivoter la camera pour que celle-ci change d’hemisphere. Il 
realise alors une premiere rotation de plus 101,25 ° , avant de s’orienter dans la 
direction du chemin qu’il souhaite emprunter par la suite. 



Fig. 10.22 - Les trois comportements typiques d’un sujet, observes lorsque la source 
est en position laterale. 


Or, d’apres le test post-hoc, on observe une difference hautement significative, entre 
les deux modes de rendu pour le secteur centre sur I’azimut 22,5 ° , p<0,001, ce qui laisse 
suggerer d’une part que le binaural offre une fois encore les meilleures performances et 
d’autre part que la frequence observee pour ce secteur n’est pas seulement due a des 

a I’arrivee du sujet a une intersection, la moyenne est realisee, non pas sur le nombre total de noeuds 
d’un trajet, mais sur le nombre de noeuds, pour lequel la position etait respectivement frontale, oblique 
ou laterale. 
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arrets intermediaires. En revanche, bien que le binaural necessite apparemment moins 
de rotations supplementaires pour confirmer la direction de provenance du son (avec on 
sans arret intermediaire), on observe approximativement la meme frequence d’utilisa- 
tion du voisinage de I’azimut 0 ° . Ainsi, la preeminence de ce secteur, par rapport an 
secteur adjacent, semble etre en grande partie imputable aux « petites rotations d’ajus- 
tement » (comportement de type 1). Cela ne remet pas en cause I’indecision probable 
du sujet lorsqu’il se retrouve face a la source (comportement de type 2), et le fait qu’il 
marque, relativement souvent, un arret intermediaire. En fait, le comportement du su¬ 
jet semblerait plutot une combinaison des trois types que nous avons decrits isolement. 
Cela pourrait expliquer pourquoi la frequentation du voisinage de I’azimut 0 ° prend de 
telles proportions dans la distribution (Figure 10.19). En effet, a I’arret precedant une 
rotation de localisation dynamique, pent s’ajouter I’arret intermediaire, precedant une 
« rotation d’ajustement », avant le depart d’une intersection. 

Si la source sonore est en position oblique, lorsque le sujet arrive a une intersec¬ 
tion, on remarque tout d’abord un usage pen frequent, voire anecdotique, des azimuts 
statiques superieurs a ±33,75 ° [i.e. la borne superieure de I’intervalle centre sur I’azi¬ 
mut ±22,5 °). On pent done supposer, a Vinstar d’une source en position laterale, que 
les differences interaurales sont en general suffisamment importantes pour qu’elles ne 
necessitent pas de rotations autres que celles qui orientent la camera dans la direction 
du chemin a suivre . II est fort probable que I’on observe aussi dans certains cas une 
combinaison de I’un des trois types de comportement que nous avons precedemment 
decrits (figure 10.22). Cependant, les deux distributions (celle d’une source en position 
laterale et d’une source en position oblique) se distinguent par la contribution relative 
du secteur centre sur I’azimut 0 °, qui est ici beaucoup plus faible que celle du secteur 
centre sur I’azimut ±22,5 ° . Avant d’interpreter ce resultat, il faut prendre en considera¬ 
tion le fait que dans le cas present le sujet ne s’oriente pas exactement dans la direction 
de la source, avant d’amorcer le deplacement jusqu’a I’intersection suivante. 

En effet, comme on pent le constater sur la figure 10.23.a, bien qu’un chemin parte 
en oblique, la jonction avec une intersection se fait toujours par I’un des cotes du carre. 
Ainsi, s’orienter dans la direction de la source donne souvent I’impression que Ton se 
dirige entre deux rues, non vers I’une d’elles. Or, comme nous avons pu le verifier sur 
les enregistrements video, le sujet a tendance a desaxer legerement la camera dans la 
direction de la « perpendiculaire »(Figure 10.23.b) et un tel decalage est generalement 
suffisant pour qu’une orientation statique soit comptabilisee dans le secteur adjacent 
an secteur centre sur I’azimut 0 °. Etant donne la preeminence du secteur centre sur 
I’azimut ±25 °, il est done tres vraisemblable que les arrets intermediaires, precedant les 
rotations supplementaires de localisation dynamique (comportement de type 2) n’ont 
pas lieu face a la source, mais juste avant de s’engager dans le chemin qui mene a I’in¬ 
tersection suivante. 

Si notre derniere interpretation est verifiee, cela confirmerait le fait plus general que 
ces rotations sont dues en grande partie a une indecision du sujet voire a une prudence, 
parfois exageree. Ainsi, non seulement le rendu binaural semble necessiter des rotations 
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Fig. 10.23 Decalage caracteristique de la camera (b), par rapport a I’axe de la source 
(a), avant d’amorcer le deplacement jusqu’a I’intersection suivante. 


de plus faible ampleur pour detecter les changements d’hemisphere d’une source sonore, 
mais 11 semblerait que sa superiorite sur le rendu stereophonique soit aussi due a une 
plus grande « credibilite » des indices qu’il fournit, conferant au sujet une plus grande 
confiance dans ses decisions de navigation. Cela expliquerait les differences observees, 
entre les conditions BinCont et SteCont au voisinage des azimut frontaux {i.e. moins 
d’arrets intermediaires face au ctiemin a suivre) et lateraux (moins de rotations supe- 
rieures a 78,75 °). 

Nous ne pouvons, dans le cas des balises decontextualisees, detailler I’analyse des 
distributions comme nous venous de le faire pour les balises contextualisees. Cependant, 
une fois que nous aurons valide les hypotheses precedentes, a I’aide d’une analyse des¬ 
criptive simplifiee et relativement superficielle des releves de I’orientation de la camera, 
nous pourrons par analogie deduire le comportement de localisation dynamique observe 
lorsque les balises sont decontextualisees. 


10.3.2.2 Validation des hypotheses relatives au comportement de localisa¬ 
tion dynamique lorsque les balises sont contextualisees 

Suite a notre analyse precedente, nous pouvons considerer trois comportements ty- 
piques du sujet a une intersection, auxquels nous ferons reference par les abreviations 
Direct, LocDynl et LocDyn2 : 

- (Direct) Nous avoirs suggere, precedemment, que le sujet pouvait prendre les 
decisions de navigation ties efficacement, particulierement lorsque la source etait 
initialement en position laterale et, dans une moindre mesure, lorsque la source 
etait en position oblique. Dans ce cas, il n’effectue que les rotations necessaires a 
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I’alignement de la camera dans la direction du chemin a suivre. Un tel compor- 
tement a d’ailleurs pu etre constate sur les enregistrements video, que les balises 
soient contextualisees on decontextualisees. La fonction qui represente la valeur de 
I’azimut an cours du temps est done souvent une simple droite, de I’azimut initial 
a I’azimut frontal on plus generalement une fonction monotone si le sujet effectue 
plusieurs rotations successives dans le me me sens. 

- (LocDynl) L’interpretation de la distribution des azimuts statiques pour une 
source front ale nous avait amene a supposer que le sujet « tendait roreille », de 
fagon recurrente dans la direction de la source, pour confirmer I’azimut pergu. 
Nous avions remarque, grace a I’observation des enregistrements video, que ce 
type de comportement n’etait pas contradictoire avec une relative certitude des 
directions de navigation et pouvait temoigner d’un certain degre d’efficacite de 
I’orientation. En effet lorsque les differences interaurales sont identiques on pas 
assez discriminantes, il est rare que le sujet decide d’avancer sans prendre la 
precaution d’au moins une rotation, meme si la source etait deja en position 
frontale an noeud precedent. Le trait caracteristique d’un tel comportement est 
done que I’azimut de la source ne change pas d’hemisphere durant la localisation 
dynamique, meme si la rotation change quelques fois de sens. 

- (LocDyn2) Enfin, le dernier type de comportement est caracterise par un 
mouvement de va-et-vient de la camera, de droite a gauche et de gauche a 
droite (et reciproquement), de sorte a « tendre une oreille », puis I’autre, dans la 
direction de la source (Figure 10.20). Cette fois-ci, I’azimut pergu est juge suffi- 
samment ambigu pour necessiter un changement d’hemisphere. Nous considerons 
qu’un tel comportement est caracteristique du plus haut degre d’incertitude des 
indices de localisation. 

Or, il ne nous a pas ete possible de prendre le temps necessaire pour developper un 
algorithme robuste permettant de detecter ces trois comportements. Nous nous sommes 
done contenter de definir deux criteres, le plus simplement possible, permettant de se- 
parer les trois cas que nous avons decrits : 

- (Detection de monotonie) La courbe representant I’azimut en fonction du 
temps est monotone si la pente calculee entre deux echantillons successifs ne 
change pas de signe a un instant donne. 

- (Detection de passage a zero par depassement seuil) La source sonore 
change d’hemisphere lorsque la courbe franchit I’axe horizontal, representant I’azi- 
mut 0 ° . Or d’apres les distributions analysees precedemment (Figure 10.19) ce 
n’est qu’a partir du secteur centre sur I’azimut ±67,5 ° que I’on observe une dif¬ 
ference significative de frequence d’utilisation. En d’autres termes, les mouve- 
ments de localisation dynamique sont de grande ampleur et les rotations « utiles » 
ne sont probablement pas inferieures a 45 °. Nous avons done fixe un seuil de 
±30 ° pour le franchissement de I’axe horizontal, qui nous a semble etre la valeur 
offrant la meilleure discrimination. 
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La figure 10.24 presente une illustration de la discrimination realisee, pour le premier 
essai de la condition BinCont. Nons avons snperpose I’ensemble des courbes ponr nn 
meme comportement {Direct, LocDynl et LocDyn2) et nne meme position initiate de 
la sonrce sonore (frontale, laterale et oblique). On pent deja remarquer sur cet exemple 
que les tendances que nons avons enoncees semblent etre verifiees. En effet, par simple 
observation de la qnantite de courbes qui se superposent, on constate, conformement a 
nos precedentes hypotheses, que les sources en position laterale et obliqne permettent 
de prendre, tres frequemment, les decisions de navigation, sans rotation snpplementaire 
de localisation dynamique. En ontre, on distingue nettement les deux types de locali¬ 
sation dynamiqne, avec et sans changement d’hemisphere (respectivement LocDynl et 
LocDyn2). 


Direct LocDynl LocDyn2 

Orientation directe vers Modiflcation(s)du sensde Modification(s)du sensde 



Source 

frontale 


Source 

laterale 


Source 

oblique 


Fig. 10.24 - Discrimination des trois comportements Direct, DynLocl et DynLoc2, 
ponr le premier essai de la condition BinCont. Afin de pouvoir superposer les diffe- 
rentes courbes, les valeurs des instants des echantillons ont ete normalisees par le temps 
maximum passe a une intersection. 


Ponr I’analyse descriptive, nous avons comptabilise le nombre de realisations des 
trois types de comportement, ponr chaque essai et ponr chaque condition experimen- 
tale. Dans le cas des balises contextualisees nons disposons d’nn facteur snpplementaire 
qni est I’azimnt initial de la sonrce sonore. Nons avons done I’occasion de verifier nos 
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premieres hypotheses. Ainsi, la figure 10.25 presente le pourcentage de realisation d’nn 
comportement donne, pour chacune des situations de perception (source initialement la- 
terale, oblique ou frontale), tout essai confondu. Comme on pouvait s’y attendre lorsque 
la source est laterale ou oblique, le sujet s’oriente directement vers la source dans la 
majorite des cas. En revanche, lorsque la source est frontale, le sujet realise en general 
au moins une rotation de localisation dynamique (comportement de type LocDynl). 



Laterale Oblique Frontale 


Fig. 10.25 - Occurrence des comportements Direct, LocDynl et LocDyn2, lorsque la 
source est laterale (1482 realisations), oblique (427 realisations) ou frontale (416 reali¬ 
sations). Les valeurs representent le nombre de realisations d’un comportement donne, 
par rapport au nombre de realisations de la situation de perception consideree (source 
laterale, oblique ou frontale). 


Cependant, nous ne pouvons confirmer les differences observees lors de I’analyse des 
distributions entre les rendus stereophoniques et binauraux. En effet, il nous aurait fallu 
caracteriser les amplitudes des differents ecarts par rapport a I’axe horizontal, ce que 
nous n’avons pas fait, ne pouvant investir plus de temps dans I’analyse de cette ex¬ 
perience. En revanche, nous pouvons observer revolution des occurrences relatives des 
comportements Direct, LocDynl et LocDyn2, au fur et a mesure des essais. De fagon si- 
milaire a I’analyse precedente, nous avons done calcule pour chaque essai et pour chaque 
condition le nombre de realisations d’un comportement donne, par rapport au nombre 
total de realisations que nous avons exprime en « pourcentage d’occurrence ». Ainsi, 
comme on pent le remarquer sur la figure 10.26, le rendu binaural permet globalement 
une plus grande progression des performances de localisation . En effet, revolution de la 
proportion de comportements Direct est plus tranche pour la condition BinCont. Cela 
semble etre explique par une diminution graduelle de la proportion de comportements 
LocDyn2, et une diminution soudaine de la proportion de comportements LocDynl 
au troisieme essai. Quant au rendu stereophonique, seule semble diminuer la propor¬ 
tion du comportement LocDyn2. Cela nous laisse supposer que, malgre une plus grande 
confiance dans les indices de localisation auditive avec les essais, ces derniers ne conferent 
probablement pas suffisamment d’assurance pour reduire le pourcentage d’occurrence 
du comportement LocDynl. 
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Cependant, ces resultats ne nous permettent pas vraiment de conclure de fagon catego- 
rique, puisqu’il ne s’agit id que d’une analyse descriptive. Nous ne pouvons done pas 
nous appuyer sur une significativite statistique pour nous garantir que ces differences 
sont expliquees par le contraste des facteurs experimentaux. Malgre tout, ils corroborent, 
une fois de plus, les hypotheses que nous avons emises lors de I’analyse de variance des 
distributions des azimuts statiques. 



Fig. 10.26 - Comparaison des pourcentages d’occurrence des comportements Direct, 
DynLocl et DynLoc2, pour les conditions BinCont et SteCont, et de leur evolution an 
cours des essais successifs. 


10.3.2.3 Interpretation du comportement aux intersections lorsque les ba- 
lises sont decontextualisees 

Maintenant que nous avons valide I’interpretation de la distribution des angles 
d’ecoute, pour les balises contextualisees, nous allons pouvoir suivre la meme demarche 
interpretative pour les balises decontextualisees (Figure 10.9). 

Nous avions remarque, qu’a la difference des balises contextualisees, la « frequence 
d’utilisation » des azimuts frontaux (voisinage de 0 °) et lateraux (voisinage de ±90 °) 
etait relativement faible, tandis que les secteurs angulaires centres, respectivement, sur 
±22,5 ° , ±45 ° et ±67,5 ° etaient utilises abondamment et de fagon quasiment uniforme. 
Pour interpreter ce resultat, nous pouvons faire le rapprochement avec le cas ou les 
balises contextualisees sont en position oblique. En effet, pour les balises decontextua¬ 
lisees, I’azimut initial d’une source sonore est d’environ ±45 ° , en moyenne, pour un 
ecart-type d’environ 20 ° . Les cas ou la source est consideree comme front ale ou later ale 
sont done tres rares. On peut alors supposer que les differences interaurales sont, en 
general, suffisamment importantes pour, qu’a I’arrivee a une intersection, les decisions 
de navigation puissent etre prises avec une relative certitude. Si I’on suppose, comme 
nous I’avons fait precedemment, que des arrets intermediaires out lieu juste avant de 
s’engager dans le chemin qui mene a I’intersection suivante, cela expliquerait la frequence 
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observee pour les azimuts statiques compris entre 11,25 ° (borne inferieur du secteur cen¬ 
tre sur 22,5 °) et 78,75 ° (borne superieure du secteur centre sur 67,5 °). Nous avions 
donne deux explications a ces arrets intermediaires : 


- soit, ils precedent une petite rotation d’ajustement pour aligner la camera dans 
la direction du ctiemin (comportement de type 1, Figure 10.22), 

- soit, ils precedent les rotations de localisation dynamique, necessaires a la confir¬ 
mation de I’azimut initialement pergu (comportement de type 2, Figure 10.22). 


Ainsi, comme nous I’avons deja mentionne, I’absence d’une preponderance des azi¬ 
muts lateraux (voisinage ±90 °) ne remet pas en cause le fait que les sujets realisent 
frequemment les mouvements de localisation dynamique DynLocl et DynLoc2. En effet, 
ils ont d’autant plus de raisons d’etre indecis, que les informations de direction, fournies 
par les balises decontextualisees, sont tres generalement ambigues. Pourquoi observe-t- 
on alors, pour la condition SteCont, une preponderance des azimuts frontaux que Ton 
n’observe pas pour les conditions BinDecont et SteDecont ? En fait, il semblerait que, de 
la combinaison des trois types de comportement que nous avons decrits (Type 1, 2 et 3, 
Figure 10.22), ce sont les arrets intermediaires face au ctiemin a suivre qui emergent le 
plus dans la distribution. Or, nous avons pu constater, pour les balises contextualisees, 
que la preponderance des azimuts au voisinage de ±90 ° est essentiellement imputable 
aux cas ou la source est initialement en position frontale, ce qui n’arrive que tres rare- 
ment lorsque les balises sont decontextualisees. Pour en savoir plus sur le comportement 
du sujet a une intersection, nous n’avons, encore une fois, pas d’autre ctioix que d’avoir 
recours a I’analyse descriptive des releves de I’orientation de la camera. 


1 □ Direct ■ LocDynl □ LocDyn2 | 
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BinCont BinDecont SteCont SteDecont 


Fig. 10.27 - Comparaison des pourcentages d’occurrence des comportements Di¬ 
rect, DynLocl et DynLoc2, pour I’ensemble des conditions experimentales, tout essai 
confondu. 
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Pour cela, nous avons comptabilise pour chaque condition le nombre de realisations 
des comportements Direct, LocDynl et LocDyn2, par rapport au nombre total de realisa¬ 
tions d’une condition. Tout d’abord, on remarque sur la figure 10.27, que pour les quatre 
conditions, la proportion dn comportement Direct est sans conteste la plus importante, 
ce qui temoigne globalement d’une bonne performance pour la tache d’orientation. En 
d’autres termes, les choix des decisions de navigations n’ont pas pose de probleme majenr 
lorsque les balises etait decontextualisees . Nous I’avions d’ailleurs remarque lorsque nous 
avions compare la longueur du chemin parcouru pour atteindre la cible. Nous en avions 
conclu que les sujets ne devaient pas commettre beaucoup plus d’erreurs de navigation, 
on que celles-ci n’etaient pas trop penalisantes. Cependant, meme si les differences sont 
assez subfiles, il semble que la contextualisation conformement a nos hypotheses soit 
bien responsable d’une plus grande efficacite du comportement de localisation . En effet, 
on pent remarquer que le comportement LocDyn2 est plus frequent que le comporte¬ 
ment LocDynl, ponr les conditions BinDecont et StcDccont, a I’inverse des deux autres 
conditions. Les balises decontextualisees necessitent done d’avoir recours plus souvent 
aux changements d’hemisphere de la source sonore, avant de prendre la decision de 
r orientation. 


10.3.2.4 Contribution respective des facteurs aux performances durant la 
tache d’orientation 

Meme si les balises decontextualisees induisent un comportement de localisation dy- 
namique moins efficace {i.e. proportion plus importante du comportement LocDyn2), 
nous avons pu remarquer que cela n’avait pas d’impact sur la quantite de mouvements 
{QOM) effectuee a une intersection lorsque le rendu etait binaural (Figure 10.6). Le 
comportement Direct semble done prendre des proportions sufhsantes pour compenser 
le temps eventuellement « perdu » en rotation. En revanche ce n’est pas le cas lorsqne 
le rendu est stereophonique (condition SteDecont), puisqne nous avons observe une dif¬ 
ference d’environ 40 ° , ce qui pour une vitesse de 70 ° /s represente une difference de 
temps passe en rotation de presque 600 ms. C’est justement la difference de performance 
qni distingue significativement les conditions SteCont et SteDecont, ponr le temps total 
(DnrNoeud) passe a chaque intersection (Figure 10.5). Enfin, si ce n’est le temps passe 
en rotation, c’est necessairement le temps passe a I’arret {DurArret) qui explique la 
difference de temps total a un intersection entre les conditions BinCont et BinDecont 
(Figure 10.7). L’ecart d’environ 400 ms entre ces deux conditions, pour la variable de- 
pendante DurArret, etait d’ailleurs la seule difference significative qne nous ayons pu 
observer. Voici done resume et illustre par la figure 10.28, I’influence respective des 
facteurs experimentaux sur les performances durant la tache d’orientation, caracterisee 
par le temps total passe a nne intersection : 

- (Effet de la contextualisation des balises) Les balises contextualisees re- 
dnisent significativement le temps passe a une intersection, grace a nn temps 
d’arret significativement plus court lorsque le rendu est binaural et une distance 
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angulaire significativement plus courte lorsque le rendu est stereophonique. 

- (EfFet du rendu sonore) Le rendu binaural ne reduit pas significativement le 
temps passe a une intersection lorsque les balises sont contextualisees, puisque ni 
le temps d’arret ni la quantite de mouvements ne sont significativement reduits. 
En revanche le rendu binaural reduit significativement le temps passe a une in¬ 
tersection lorsque les balises sont decontextualisees, grace a un temps passe en 
rotation plus court. 



Quantite de mouvement Dur6e d'arret par noeud-Temps passe par noeud 


Fig. 10.28 - Explication des differences significatives observees (« S. » pour « signifi- 
catif » et « N.S. » pour « non significatif ») pour le temps total passe a un noeud (Cf. 
Figure 10.5), par les differences significatives observees pour la quantite de mouvements 
(Cf. Figure 10.6) et la duree totale des arrets (Cf. Figure 10.7). 


A en croire ce premier bilan des performances offertes respectivement par 
les « meilleures » modalites supposees de chaque facteur, il semblerait que la 
contextualisation des balises ait une influence plus vertueuse que n’en a rutilisation du 
binaural . Cependant, il serait plus prudent d’observer les effets d’apprentissage avant 
de conclure sur le poids relatif de nos facteurs. 



Fig. 10.29 - Effet croise de I’essai et des facteurs sur le temps passe a une intersection : 
(a) facteur RS et (b) facteur RI. 
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Nous avons done analyse I’effet croise de I’essai et du facteur experimental sur le 
temps passe a une intersection. Nous avons pour cela regroupe deux a deux nos quatre 
conditions, afin d’observer d’une part I’effet du rendu sonore (RS), balises contextuali- 
sees et decontextualisees confondues et, d’autre part I’effet de la representation de I’in- 
formation spatiale {RI), rendus binaural et stereophonique confondus. Tout d’abord, 
I’ANOVA indique que I’effet global est significatif, pour le facteur RS, F(2,716)=6,132, 
p<0,05 et hautement significatif pour le facteur RI, F(2,716)=10,335, p<0,001. Ensuite, 
comme on pent le constater sur la figure 10.29, la difference entre les rendus binaural et 
stereophonique augmente an fur et a mesure des essais. D’ailleurs, le test post-hoc HSD 
de Tuckey indique que la difference de performance n’est significative qu’au troisieme 
essai {p<0,05). II se pourrait done qu’un certain apprentissage soit necessaire avant 
que Ton puisse observer une reelle superiorite du binaural sur la stereophonie . II est 
tentant de faire I’hypothese que les sujets ont d’une certaine fagon « appris » a associer 
une modification d’azimut d’une source avec une modification du spectre d’un son. Ce- 
pendant, les phenomenes de plasticite du cerveau etant hors de portee de cette etude, 
nous en resterons a une simple constatation de I’effet, meme si nous sommes convaincus 
qu’un certain entrainement est profitable a la localisation, particulierement lorsque les 
HRTF ne sont pas individualisees. 

Enfin, a I’inverse du rendu sonore, il semblerait que la difference de performance 
entre les representations contextualisees et decontextualisees s’amenuise. L’ecart qui est 
d’environ 700 ms au premier essai n’est plus que de 300 ms au troisieme. D’ailleurs 
le test post-hoc indique que la difference est hautement significative au premier essai 
{p<0,001), significative au deuxieme {p<0,05), et qu’elle ne Test plus au troisieme 
{p—0,073). En outre, on remarque que la progression observee pour les balises contex¬ 
tualisees est plus importante entre le premier et le deuxieme essai, qu’entre le deuxieme 
et le troisieme. Nous avions constate la meme tendance lors de I’etude des effets d’ap- 
prentissage sur la memorisation de la position des cibles. Cela pourrait signifier que 
les balises decontextualises tirent un plus grand profit d’une meilleure connaissance 
de I’environnement. II semblerait que les balises contextualisees n’offrent de meilleures 
performances qu’a plus ou moins court terme, ce qui remet quelque peu en cause leur 
soit-disant superiorite par rapport aux balises decontextualisees . 


10.3.3 Etat de I’utilisabilite relative des balises sonores pour la navi¬ 
gation 

10.3.3.1 Les effets a plus long terme 

Conformement a I’hypothese RI3, nous avons constate une diminution de la charge 
de travail lorsque les balises etaient contextualisees . Nous avions motive cette hypothese 
en remarquant que ces balises devraient necessiter moins d’« effort mental » puisque le 
sujet n’aurait pas a comparer systematiquement I’azimut de la cible avec celui des 
chemins qui se presentent a lui a chaque intersection. Nous etions alles plus loin, avec 
I’hypothese RI 4 , en supposant notamment que la facilite avec laquelle sont prises les de- 
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cisions de navigation pourrait diminner I’attention visuelle accordee a I’environnement 
et pins globalement I’engagement dnrant la tache. Nous y voyons alors un argument 
supplementaire permettant de justifier Thypothese selon laquelle les balises decontextua- 
lisees n’apportent rien a la connaissance spatiale qu’offre deja I’exploration visuelle, et 
pouvait meme lui etre prejudiciable. Cependant, bien que I’on ait observe une difference 
significative d’erreur absolue {ErrAbs) entre les conditions BinCont et BinDecont, nous 
n’osons tirer aucune conclusion, tant nos observations sont pen concluantes. II semble 
d’ailleurs que notre protocole experimental en soit malheureusement le premier respon- 
sable. II est difficile de croire, par exemple, que I’effet d’apprentissage observe ne soit pas 
du a I’observation de la carte lors du rappel de I’emplacement des cibles sur laquelle etait 
indiquee la couleur des zones. Dans ces conditions, il n’est pas etonnant de constater 
que la proportion des differentes erreurs (Figure 10.11) correspond grossierement a celle 
des zones. En d’autres termes, les sujets ne semblent pas avoir memorise, veritablement, 
la configuration des sites on se trouvaient les cibles, mais plutot la couleur des zones 
qui leur etait associee . 


En outre, lorsque nous avons avance que la facilite avec laquelle sont prises les deci¬ 
sions de navigation pourrait diminner I’attention accordee a I’environnement, il aurait 
sans doute etait plus sage d’en rester la. Peut-etre I’hypothese RI 4 surestimait-elle la 
contribution des indices de la localisation auditive a la connaissance spatiale, lors d’une 
telle tache de navigation . De meme, I’liypottiese RI5, bien que plus modeste, ne I’etait 
sans doute pas assez, en supposant qu’un individu pourrait juger la navigation auditive 
facile, an point de ne pas presenter une certaine forme de challenge, ne serait-ce que 
par son caractere inaccoutume (en temoigne I’aspect un pen caricatural de la locali¬ 
sation dynamique). En effet, 1’analyse du questionnaire de ressenti indique bien que 
la contextualisation des balises sonores augmente I’impression de facilite que donne la 
tache de navigation (effet significatif sur les criteres Facloc, UtilSon et FacTache), mais, 
en aucune fagon, elle n’indique d’influence sur 1’appreciation generate de I’experience 
{AppGnl), I’engagement {Engage) on encore le divertissement {Diverti). 

En fait, il nous parait evident, a posteriori, que les balises contextualisees reduisent la 
navigation a une succession de taches de localisation auditive quasiment independantes 
les unes des autres; c’est une navigation instantanee, « sans memoire ». An contraire, 
la localisation des balises decontextualisees est sans interruption; I’auditeur beneficie, 
a chaque nouvelle intersection, de son experience precedente de Tazimut de la source. 
Il n’est done pas etonnant qu’il soit capable de prendre les decisions de navigation 
avec une certaine assurance, meme si cela est an prix d’une plus grande charge cog¬ 
nitive. Encore une fois, cela remet quelque pen en cause la superiorite trop evidente 
des balises contextualisees. Nous pouvons done deja affirmer qu’elles ne conduisent pas 
necessairement a une plus grande utilisabilite du dispositif d’assistance a la navigation. 
Cela depend en premier lieu du contexte d’utilisation. Supposons qu’un joueur soit en 
situation de double tache {e.g. conduire un vehicule dans un jeu de simulation on com- 
battre un ennemi dans un FPS) et que la navigation ne soit pas la tache principale, 
il pent etre preferable de minimiser I’attention qu’il est necessaire d’accorder aux ba- 
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Uses sonores. Sachant qu’elle permet de reduire, de fagon relativement importante, la 
charge cognitive, la representation contextualisee est alors sans conteste la plus utili- 
sable, parce que plus efficiente. En revanche, si la tache principale est I’exploration de 
I’environnement on meme la recherche d’items {e.g. la collecte d’arme et de munitions, 
on la recherche d’un ennemi dans un FPS), son utilisabilite est alors plus discutable. 
Celle du rendu binaural semble I’etre nettement moins. 


10.3.3.2 Recommandations d’usage de la spatialisation sonore 

L’evolution des differences inter-groupe, an fur et a mesure des essais, resume par- 
faitement le poids relatifs des facteurs experimentaux. Nous avons done realise une 
derniere analyse de I’effet croise de I’essai et de la condition, sur le temps passe a une 
intersection. 



Fig. 10.30 - Effet croise de la condition et de I’essai sur le temps passe a une intersection. 


Tout d’abord, I’analyse de variance indique un effet global hautement significatif, 
F(6,712)=5,994, p<0,001. Ensuite, comme on pent le constater sur la figure 10.30, an 
premier essai, seule la contextualisation des balises sonores a un effet sur le temps 
passe aux intersections, ce que confirment les comparaisons post-hoc. L’utilisation du 
rendu binaural, n’ameliore absolument pas les performances par rapport a la stereo- 
phonie. Par ailleurs, on observe une difference significative entre les conditions Bin- 
Decont et SteCont. La comparaison post-hoc indique que le temps passe est signifi- 
cativement plus court pour les balises contextualisees stereophoniques {p<0,05). Dans 
un premier temps, le mode de representation de I’information spatiale est done sans 
conteste le facteur qui a le plus de poids sur les performances. La contextualisation 
des balises conduit bien a une plus grande utilisabilite du dispositif sonore pour la 
navigation. Cependant nous avons vu que cette superiorite etait de courte duree, et que 
les balises decontextualisees permettaient une meilleure progression avec I’apprentissage. 
II en est de meme pour les balises binaurales, qui n’apportent pas d’avantage particulier 
par rapport a la stereophonie, lors d’une utilisation « naive », mais deviennent clairement 
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les plus utilisables apres un certain entrainement. II n’est done pas etonnant de consta- 
ter que la tendance observee an premier essai semble s’inverser an cours des essais. A 
la troisieme session, le temps passe a une intersection pour la condition BinDecont est 
equivalent, si ce n’est inferieur, a celui mesure pour la condition SteCont. A long terme, 
e’est done bien le rendu sonore qui a le plus de poids sur les performances durant la 
navigation. 

En conclusion, le tableau 10.10 resume les recommandations d’usage de la spatialisa- 
tion sonore, pour I’assistance a la navigation dans un environnement virtuel complexe, 
selon le niveau d’expertise du joueur : 


Novice 

11 est preferable lorsqu’un individu decouvre I’environnement 
de limiter la dependance des performances de la tache de 
navigation, vis-vis de la complexite du reseau de route. La 
modalite auditive, par I’utilisation de balises contextualisees, 
peut alors offrir une assistance efficiente et non intrusive a 
I’exploration. La vision etant soulagee en grande partie de 
la tache d’orientation, traitee en « arriere plan »par I’audi- 
tion, I’attention visuelle peut etre plus facilement focalisee 
sur les details d’architecture d’un niveau, I’observateur, glo- 
balement plus vigilant aux evenements du jeu et plus a meme 
de trailer les informations diverses qui lui sont transmises par 
le canal visuel. 

Expert 

Lorsque le joueur a acquis une connaissance suffisante sur son 
environnement (une connaissance globale de la configuration, 
ou survey knowledge) les balises contextualisees sont beau- 
coup moins utiles. Le joueur ayant deja construit une carte 
mentale de son environnement, il est plus a meme d’associer 
la position spatiale d’un son avec I’emplacement d’un site 
distant. L’usage des balises decontextualisees est done plus 
pertinent, puisqu’elles etendent, a I’instar des mini-cartes, 
I’etendue du champ de perception. Dans ce cas il est pri¬ 
mordial que la reproduction du champ sonore soit, objecti- 
vement, de la plus grande qualite possible pour permettre au 
joueur de s’orienter de fagon efficiente, s’il desire se diriger 
vers I’un de ces points de repere sonore (ou soundmark). 


Tab. 10.10 - Recommandations d’usage de la spatialisation sonore pour I’assistance a 
la navigation dans une environnement virtuel complexe. 






Chapitre 11 
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Meme si la maquette que nous avons developpee pour I’experience ne nous a permis 
d’aborder que tres superficiellement la problematique de la conception d’une interface 
de navigation dans un environnement sonore 3D nous avons pourtant introduit le fon- 
dement de Tarctiitecture d’un tel systeme. En effet, nous avons insiste sur le fait que la 
gestion des interactions devait etre fondee sur un « modele semantique » de I’environne- 
ment, combinant les aspects symboliques et geometriques. L’extraction des informations 
relatives an reseau de route (on graphe), telle que la connectivite des intersections, n’est 
qu’une application de ce principe. Les meta-donnees que nous avons extraites du modele 
3D, nous ont alors permis de controler les deplacements semi-automatises de la camera, 
et, surtout, de proposer une sorte de cartoonification des phenomenes de propagation 
sonore dans un environnement complexe, que nous avons appeles balises contextualisees. 
Ce n’est pas tant leur vague mimetisme que leur capacite a indiquer le chemin le plus 
court vers un site distant qui nous interessait ici. Nous avons ainsi compare V utilisabilite 
de ces balises en les confrontant a des balises decontextualisees, definies comme des points 
de reference radiale et azimutale (on landmark). C’est dans ce contexte que nous avons 
observe le benefice de la spatialisation sonore et plus particulierement d’une synthese 
binaurale non individualisee, par rapport a la stereophonie mixte. 

Or, on est parfois porte a croire qu’une plus grande qualite objective (perspective du 
concepteur de logiciel) s’exprime necessairement par une plus grande qualite subjective 
(perspective de I’utilisateur). Si tel etait le cas, les balises eontextualisees, permettant 
une plus grande coherence des sources sonores avec I’environnement visuel et fournissant 
des indications de direction plus faciles a utiliser pour la navigation, auraient du offrir, 
sans conteste, de meilleures performances et un ressenti plus favorable de I’utilisateur. 

Balises contextualisees Cependant I’analyse des resultats nous a montre que les 
balises contextualisees n’amelioraient quasiment pas la tache globale de navigation. Ty- 
piquement, quel que soit le type de balises utilise, la longueur du chemin parcouru est 
proche de la distance optimale, et les decisions de navigation sont prises assez frequem- 
ment, sans qu’aucune rotation de localisation dynamique ne soit necessaire. En fait. 
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meme si la contextualisation des balises sonore permet bien de reduire globalement le 
temps de prise de decision a chaque intersection, I’observation des effets d’apprentis- 
sage nous a appris que le benefice apporte diminuait a mesure que la connaissance de 
I’environnement s’ameliorait. En outre, le questionnaire de ressenti ne nous a indique 
aucun effet du type de representation sonore sur la satisfaction. Ainsi, bien que les ba¬ 
lises contextualisees reduisent sensiblement la charge de travail, on pent tout de meme 
conclure qu’elles ameliorent Vutilisabilite du dispositif essentiellement d’un point de vue 
« perceptif ». En d’autres termes, pour reprendre la terminologie de Salen et Zimmer¬ 
man [SZ03] {section 3.3), il semblerait que I’interaction avec les balises contextualisees 
soit discernable mais pas veritablement integree. Nous avons d’ailleurs remarque qu’elles 
conduisaient a une navigation instantanee, « sans memoire ». Elies reduisent la navi¬ 
gation a une succession de taches de localisation auditive quasiment independantes les 
unes des autres. 

Balises decontextualisees A I’inverse, bien que I’interaction avec les balises decon- 
textualisees soit moins discernable, elle semble en revanche plus integree. Comme nous 
I’avons mentionne, la localisation de ces balises est sans interruption. L’auditeur be- 
neficiant a chaque nouvelle intersection de son experience precedente de I’azimut de 
la source, il perd probablement moins « le hi » de sa navigation. C’est d’ailleurs I’une 
des raisons que nous avons evoquee pour expliquer I’efficacite observee pour la prise de 
decision des directions de navigation. Ainsi, si nous n’avons pas pu mettre en evidence 
la contribution de ces balises a la connaissance spatiale qu’offrait deja I’exploration vi- 
suelle, peut-etre etait-ce aussi parce que les effets de memorisation n’etaient pas de bon 
observables pour caracteriser le phenomene. Encore une fois, I’effet des balises decon¬ 
textualisees est probablement plus benefique a la perception qu’a la cognition. En effet, 
qu’une representation mentale ne se stabilise pas en memoire ne signifie pas qu’elle ne 
soit pas deja « utilisable » en locomotion et facilite la localisation de la cible a chaque 
nouvelle intersection^. Si, en contrepartie, cela s’exprime par une plus grande hesita¬ 
tion lors d’une exploration naive de I’environnement, a plus long terme, les qualites 
d'integration des balises decontextualisees pourraient bien prendre le dessus sur le fait 
qu’elles soient moins discernables. Elies ne sont done pas necessairement moins utili- 
sables que les balises contextualisees, dans le cadre de notre experience. 

Avantage de la synthese binaurale La synthese binaurale etant fondee sur un mo- 
dele psychoacoustique plus precis que la stereophonie, elle est sensee, comme les balises 
contextualisees, offrir de meilleurs performances et surtout un ressenti plus favorable. 
C’est d’ailleurs ce que nous avons observe globalement^ : reduction du temps de prise 
de decision, reduction de la charge de travail, renforcement de I’impression d’« effet son 
3D » et amelioration de 1’appreciation generate. Cependant, a la difference des balises 
contextualisees, Vutilisabilite relative des balises binaurales ne tend pas a diminuer avec 
les essais. An contraire, en observant les effets d’apprentissage, nous avons pu remarquer 

^Elle permet de pas perdre « le fil » de la navigation 

’^Tout essai confondu et tout type de representation spatiale confondu (i.e. melange des conditions 
contextualise et decontextualise) 
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qu’un certain temps d’adaptation etait necessaire avant qne les differences interanrales 
propres anx HRTF presentent nn avantage significatif. Or, la tache effectnee par les par¬ 
ticipants tenait pins d’nne tache locale d’orientation, necessitant nne localisation ef- 
ficace, qne d’nne tache globale de navigation, necessitant I’elaboration de strategies 
qni gnident les deplacements {wayfinding). Ainsi, il semblerait qne la synthese binanrale 
ait nn effet positif non negligeable snr Vutilisabilite d’nn dispositif sonore d’aide a la 
navigation dans nn environnement virtnel constrnit. En d’antre termes, nne pins grande 
qnalite objective des effets de spatialisation semble bien condnire, ici, a nne pins grande 
qnalite snbjective . 


Pins generalement, I’enseignement qne I’on en tire ponr la snite est qn’il est prefe¬ 
rable de ne pas snrestimer la contribntion des indices de la localisation anditive a la 
connaissance spatiale, lors d’nne telle tache de navigation. En effet, nons avons etndie, 
ici, le cas d’nne complementarite « forte » entre les modalites anditives et visnelles : la 
tache d’orientation reposait exclnsivement snr la perception anditive. Or, cette tache 
essentiellement « perceptive » semble deja representer nne forme de challenge ponr les 
participants, ne serait-ce qn’a canse dn caractere inaccontnme de la tache. La freqnence 
relativement importante d’nn comportement de localisation dynamiqne qnelqne pen ca- 
ricatnral, meme lorsqne les balises etaient contextualisees, temoigne bien, a notre avis, 
d’nn certain manqne d’assnrance. Nons ponrrions eventnellement tenter de corriger les 
defants de I’experience qne nons avons realisee, ponr nons assnrer de I’habilete de I’an- 
dition ponr la cognition spatiale, mais il nons parait pins prndent d’assnmer le fait qne 
la spatialisation sonore jone plntot nn role de facilitation. Cela est nn argnment snp- 
plementaire ponr etndier, dans la denxieme phase de nos travanx de recherche, le cas 
d’nne relation pins explicite entre I’espace sonore et I’espace fignre a I’ecran (on espace 
diegetique). En effet, lors d’nne navigation en snrvol, on instanrera plntot nne forme de 
complementarite « faible » : la representation sonore permet bien de combler certaines 
lacnnes de la representation visnelle^, mais elle n’est pas nne condition necessaire a 
I’orientation de I’ntilisatenr dans I’environnement. 

Cependant, dans la snite de nos travanx, nons n’allons pas traiter avec la meme 
insistance les problematiqnes liees a Vusage de la spatialisation sonore. En effet, nons 
avons pn constater qn’nn grand nombre de qnestions se posaient encore, qnant a lenr 
mise en oenvre ponr la navigation en survol dans nn environnement sonore de « grande 
amplenr ». Notamment, nons avons remarqne qne les sons de zone (on sons d’ambiance) 
ponvaient monopoliser, a enx senls, les ressonrces allonees an motenr de rendn sonore, 
si I’on se cantonnait a I’approche classiqne, « centree snr I’objet » (comme c’etait le 
cas ponr cette premiere etnde d’utilisabilite). Or, il semblerait qn’ils pnissent tont a 
fait s’accommoder d’nne approche « centree snr le champ sonore », beanconp pins eco- 
nome. C’est celle-ci qni sera I’objet de la troisieme et derniere partie dn mannscrit. Pins 

®Par exemple, a grande echelle, la modalite auditive se charge de representer le contexte spatial, 
puisque la modalite visuelle est contrainte a la representation du detail (et reciproquement, a une petite 
echelle). 
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particulierement, nous verrons comment peuvent etre mis en oeuvre les Surrounding- 
Sound, dans le cas particulier d’une panoramisation par paires. Nous verrons comment 
ils peuvent se substituer aux DirectiveSound pour le rendu des sons d’ambiance, operant 
ainsi une economie non negligeable des ressources du systeme. Cependant, cette « eco- 
nomie » s’accompagnera aussi d’une forme de degradation des effets de spatialisation 
qu’il nous faudra caracteriser a I’aide d’une evaluation subjective. 



Troisieme partie 

Conception et evaluation d’une 
interface sonore pour la navigation 
en survol dans les grandes scenes 
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Habituellement, les belvederes sont des points de vue sur la nature, dont Us tiennent 
les elements, eaux, vallees, forets, rassembles sous eux, en sorte que le tourisme de la 
« belle vue » implique infailliblement une mythologie naturiste. La Tour, elle, donne, 
non sur la nature, mais sur la ville; et pourtant, par sa position meme de point de 
vue visite, la Tour fait de la ville une sorte de nature; elle constitue le fourmillement 
des hommes en paysage, elle ajoute au mythe urbain, souvent sombre, une dimension 
romantique, une harmonie, un allegement; par elle, a partir d’elle, la ville rejoint les 
grands themes naturels qui s’offrent a la euriosite des hommes : I’oeean, la tempete, la 
montagne, la neige, les fleuves. 


Roland Barthes, La Tour Eiffel 
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Chapitre 12 

Introduction 


Lots d’une locomotion en survol, on s’eloigne des conditions de perception d’ins- 
piration realiste a laquelle nous contraint la locomotion que nous avions qualifiee de 
« pedestre », en reference au jeu de type FPS, qui se developpent sur une surface {sec¬ 
tion 5.1.2.1). Ainsi, plutot que d’immerger I’observateur dans I’environnement, au sens 
propre du terme, le point de vue allocentrique offre une representation de I’espace tres 
riche, permettant d’en apprehender la globalite aussi bien que le detail et d’en apprecier 
sa structure. Les systemes d’information geographique (SIG), tirant profit des capacites 
expressives des environnements virtuels, permettent ainsi de transcender les represen¬ 
tations spatiales des cartes que nous utilisons couramment, en diversifiant les points de 
vue et le « niveau d’abstraction » de I’information communiquee. Certaines applications 
ludiques, elles aussi, se trouvent a mi-chemin entre la representation cartographique 
et la simulation de I’espace reel (voir Annexe A). Or, la question de I’usage de la 
modalite auditive dans les interfaces zoomables est, de toute evidence, laissee en sus- 
pens. Pourtant, bien qu’elle soit epineuse, elle offre une occasion unique d’aborder le 
probleme de la dissociation du point de vue et du point d’ecoute et de leur eventuelle 
complementarite ou redondance. En plus de problematiques liees a I’usage de la spatia- 
lisation sonore, un certain nombre de questions se posent quant a leur mise en oeuvre. 
Notamment, nous nous interesserons a la fagon dont peut rendre les SurroundingSound^ 
« positionnables », a I’image DirectiveSound"^ auxquels ils sont senses pouvoir se sub- 
stituer. 

Le chapitre 13 traite done, dans un premier temps, de la question du point d’ecoute 
dans les interfaces zoomables et illustre les problemes inherents a I’usage exclusif de la 
modalite visuelle. Nous y definissons alors une forme de complementarite du point de 
vue et du point d’ecoute, qui s’exprime par une variation de la « portee » du champ 
de perception auditive en function de I’echelle. Pour motiver I’approche « centree sur 
le champ sonore » dans les environnements virtuels de « grande ampleur », il sera ex- 
plique comment elle peut etre mise a profit pour la reproduction d’un paysage sonore 

^ approche « centree sur le champ sonore » 

’^approche « centree sur I’objet » 
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reel. Suivant le principe de I’echantillonnage spatial, nous presentons alors un scena¬ 
rio d’usage des Directives ound et des Surrounding Sound, pour une complementarite a 
petite et grande ectielle. Nous aurons I’occasion de mettre en valeur, dans ce dernier 
cas, la necessite de rendre les Surrounding Sound « positionnables », soit d’appliquer des 
transformations de rotation et de distorsion de perspective aux champs sonores. Enfin, 
insistant sur la necessite de pallier le probleme de la quantite d’information transmise, 
nous proposons un exemple simple de zoom semantique. Dans la deuxieme partie du 
chapitre nous essayons alors de faire le point sur les differentes transformations qu’il est 
possible d’appliquer afin de modifier les proprietes de la representation sonore {Trans¬ 
formation de donnees et Transformation de rendu). 

Le chapitre 14 presente I’application que nous avons developpee dans le cadre de 
cette etude. Nous exposons tout d’abord ses principales fonctionnalites. Nous expliquons 
comment nous utilisons le format VRML pour decrire une scene sonore 3D, composee 
a la fois de DirectiveSound et de SurroundingSound et comment peuvent y etre definis 
des chemins pour les deplacements semi-automatises du point d’ecoute. Nous expliquons 
ensuite comment nous avons pu rendre les SurroundingSound « positionnables », par 
I’emploi de haut-parleurs virtuels places autour du point d’ecoute. Nous decrivons alors 
I’approche retenue pour substituer un grand nombre de DirectiveSound par un nombre 
limite de SurroundingSound et reduire ainsi le niveau de detail de la scene. Enfin, nous 
presentons quelques elements de specification de I’interface en se concentrant sur la 
description d’un unique cas d’usage : la creation de scene sonore a partir d’un fichier 
VRML. Nous detaillons, d’une part, la procedure d’initialisation de I’application et la 
fagon dont sont geres les evenements de I’interface et, d’autre part, la creation du graphe 
audio a partir de I’organisation spatiale extraite de la description originate de la scene. 

Le chapitre 15 presente I’experience que nous avons mise en place pour evaluer la 
distorsion introduite, sur un systeme quadriphonique, par la substitution d’un ensemble 
de DirectiveSound par un unique SurroundingSound. Nous expliquerons tout d’abord 
le principe de I’experience, en particulier les stimuli qui seront proposes a la comparai- 
son lors du test MUSHRA modifie. Nous verrons qu’il s’agit de plusieurs versions de la 
meme scene sonore : 

- une scene de reference composee uniquement de DirectiveSound 

- une scene realisee a I’aide d’un unique SurroundingSound compose de quatre haut- 
parleurs virtuels. 

- une premiere ancre : un « downmix » stereophonique de la scene construite a I’aide 
des DirectiveSound, « upmixe » sur quatre canaux 

- une seconde ancre : un « downmix » monophonique de la scene construite a I’aide 
des DirectiveSound, « upmixe » sur quatre canaux. 


Puis nous presenterons les differents facteurs que nous avons decide de prendre 
en compte pour cette experience : le nombre de DirectiveSound de la scene de refe¬ 
rence, le type de scene sonore, le type et I’ampleur des transformations appliquees an 
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point d’ecoute (rotations on translations) et enfin le niveau d’expertise des participants. 
Apres avoir decrit le plan de test et le dispositif, nous presentons alors les resultats 
d’une evaluation preliminaire dont I’objectif etait de selectionner les differentes scenes 
sonores utilisees pour revaluation finale. Ensuite, une fois emises un certain nombre 
d’tiypotheses sur le classement des stimuli, en fonction des differentes conditions expe- 
rimentales, nous presentons I’ensemble des resultats obtenu que nous discutons. Nous 
conclurons enfin du « poids » relatif des distorsions objectivahles sur Timpression de 
fidelite des scenes Surrounding Sound. 
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Chapitre 13 

Motivations 


13.1 Presentation du contexte de I’etude 

13.1.1 La question du point d’ecoute dans les interfaces zoomables 

Preambule On est en droit de douter de I’apport veritable de la modelisation 3D 
dans les systemes d’information geograptiique, si ce n’est le raffinement esttietique on 
I’immersion. D’un point de vue purement «instrumental», un service tel que Rennes Ci- 
tevisions (voir Annexe B), n’est a priori pas plus utilisable que le service web des pages 
jaunes. Cependant, naviguer dans la maquette virtuelle en 3D d’une ville ne suscite pas 
seulement I’enphorie d’une vue aerienne. Cela offre aussi aux citadins I’opportunite de 
mieux comprendre et connaitre leur ville, et, eventuellement, de se « reapproprier » leur 
environnement. En effet, juche sur un belvedere mouvant, les elements qui composent 
notre quotidien sont bien la devant nous, « mais cependant depayses par I’espace global 
on ils nous sont donnes, car cet espace nous etait inconnu » [Bar94b]. Le panorama 
est alors une image que I’on cherctie a dechiffrer, on I’on essaie de reconnaitre des lieux 
connus, d’identifier des reperes. Plus encore, la ville ainsi offerte a notre regard indiscret 
devient une intimite dont le visiteur pent dechiffrer les fonctions. S’elevant an dessus de 
Paris, notre « imagination continue a remplir le panorama, a lui donner sa structure; 
[...] sur le grand axe polaire, perpendiculaire a la courbe horizontale du fleuve, trois 
zones etagees [...], trois fonctions de la vie humaine : en haut, an pied de Montmartre, 
le plaisir; an centre, autour de I’Opera, la materialite, les affaires, le commerce; vers le 
bas, an pied du Pantheon, le savoir, I’etude; puis a droite et a gauche, enveloppant cet 
axe vital comme deux manchons protecteurs, deux grandes zones d’habitation, residen- 
tielle ici, populeuse la» [Bar94b]. Ainsi, la modalite sonore, par sa capacite a renseigner 
sur I’activite d’un lieu et, par extension, sur son « identite », pent combler ce vide laisse 
par la modalite visuelle. Si les environnements virtuels ont veritablement la pretention 
de transcender I’instrumentalite prosai'que des representations cartographiques, les re¬ 
presentations visuelles de I’espace ne peuvent done se suffire a elles-memes. Lors d’une 
locomotion en survol, une representation sonore pourrait prendre le relais de I’imagina- 
tion pour relier entre eux les elements discrets de I’environnement en un grand espace 
structure, fonctionnel et signifiant. Nous avons d’ailleurs en I’occasion [seetion 5.1.2.1) 
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de soulever la question de la complementarite du point de vue et du point d’ecoute. Ce- 
pendant, nous avons pose plus de questions que nous n’avons apporte de reponses. Nous 
allons done tenter d’approfondir quelque peu la voie que Me Gookin et Brewster [MB02] 
ont ouvert avee leur interfaee multimodale focus + contexte. Meme si nous resterons au 
stade de la speeulation, ee sera pour nous I’oeeasion de mieux eerner la problematique 
et de determiner quelle pourrait etre notre modeste eontribution dans le eadre de ee 
travail de reeherehe doetorale. 

Les limites d’un usage exclusif de la modalite visuelle Comme I’illustre la figure 
13.1, I’augmentation de I’eehelle s’aeeompagne d’une augmentation du nombre d’objets 
potentiellement visibles et done le plus souvent d’une sureharge d’informations visuelles, 
ee qui nuit a la « lisibilite » de la representation spatiale. Meme si le « zoom seman- 
tique » permet de realiser une veritable eeonomie de la densite d’information transmise, 
elle eonduit inevitablement a une reduetion du niveau details. Reeiproquement, la re- 
duetion de I’eehelle diminue le nombre d’objets visibles, qui peuvent etre representes 
avee un niveau de detail plus eleve. Cependant eela s’aeeompagne, en eontrepartie, d’une 
perte d’information sur le eontexte spatial. La question qui se pose iei est done eelle de 
I’adaptation des proprietes du point d’ecoute en fonetion des modifieations du point de 
vue, puisque e’est a ee dernier que le point d’eeoute semble devoir etre « asservi ». 


Petite 



Densite Nombre d’objets pergiis Champ de perception 

d’information 


Fig. 13.1 - Illustration des eonsequenees d’un etiangement d’eehelle sur le point de vue. 


Or, nous avons eu I’oeeasion de remarquer section 5.1.2 que le point d’ecoute avait, 
d’une part, un earaetere fondamentalement « egoeentrique », eonduisant a un decroche- 
ment spatial a sens unique^ pour une navigation en survol et qu’il pouvait, d’autre part, 
entretenir un rapport « tiarmonieux » avee le point de vue, en offrant une representation 
eomplementaire de I’espaee. Cela suppose, eomme il est illustre Figure 13.2, que la re¬ 
presentation sonore eomble a petite et a grande eetielle les laeunes de la representation 
visuelle, done que la « portee » du ehamp de pereeption du point d’ecoute soit maximale 

^C’est le point de vue qui se « detache » du point d’ecoute, qui reste, quant a lui, sur le meme « plan 
subjectif ». 
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lorsque celle du point de vue est minimale et, reciproquement, minimale lorsque celle 
du point de vue est maximale. Ce qui signifie : 

- A petite echelle : pouvoir entendre une petite partie precisement {i.e. le focus) 
lorsqu’on ne peut voir qu’un grand ensemble avec peu de details {i.e. le contexte). 

- A grande echelle : pouvoir entendre un grand ensemble avec peu de details {i.e. 
le contexte) lorsqu’on ne peut voir qu’une petite partie precisement {i.e. le focus). 



Demite * * * 

d’information Champs de perception visuelle et sottore 


Fig. 13.2 - Complementarite du point de vue et du point d’ecoute, a petite et a grande 
echelle. 


Echantillonnage du paysage sonore Une methode simple et efficace pour repro- 
duire I’environnement sonore d’un espace reel consiste a realiser differentes prises de son 
multicanal en divers endroits judicieusement choisis (par exemple, a I’aide d’un micro¬ 
phone Ambisonic), qui seront utilisees par la suite dans I’interface pour constituer tout 
ou partie de I’ambiance d’une region donnee. Reste alors a definir une methode pour 
faire de I’assemblage de ces elements a priori disparates, un tout coherent. Par exemple, 
Viaud-Delmon et al. [VDWS+06], pour leur experience sur I’agoraphobie, appliquent un 
simple cross-fade dans la zone de superposition (ou de transition) des differentes zones 
d’activation des champs sonores^. {i.e. correspondant a niveau sonore non nul). Ainsi, 
comme il est illustre Figure 13.3, I’auditeur passe d’un micro-paysage a un autre, cha- 
cun conferant sa propre identite a une region de I’espace, sans discontinuite dans la 
representation sonore. En plus des champs sonores, Viaud-Delmon et al. ont place dif¬ 
ferentes sources ponctuelles correspondant notamment a des entites recherchees durant 
I’experience (un cinema et une balangoire). Elies ne sont cependant pas veritablement 
utilisees comme balise, etant donnee la taille reduite de leur zone d’activation (ellipse 
sur la figure 13.3). 


*Les champs sonores ont ete enregistres an format Ambisonic a I’aide d’un microphone SoundField. 
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Fig. 13.3 “ Exemple de creation d’un paysage sonore pour la navigation dans un en- 
vironnement virtuel : definition des zones d’activation des champs sonores (on Sur¬ 
rounding Sound) et des sources ponctuelles (on DirectiveSound), ainsi que des zones de 
transition pour I’interpolation (adapte de Viaud-Delmon et al. [VDWS+OG]). 


L’environnement virtuel mis en oeuvre ici, est un cas typique d’usage des noeuds 
DirectiveSound (sons monophoniques spatialises individuellement) et Surrounding- 
Sound (sons multicanal encodant la configuration spatiale d’une scene sonore), definit 
par la norme MPEG-4- La scene sonore a pu etre congue de la sorte, grace a I’envi- 
ronnement ListenSpace, developpe a I’IRCAM par Delerue et Warusfel [DW02], qui est 
fonde sur le langage de description BIFS. D’ailleurs, nous avons eu I’occasion de pre¬ 
senter section 5.2.1.3 les transformations qui pouvaient etre appliquees a un champ 
sonore pour le rendre utilisable dans le cadre d’une application interactive. Ici, les Sur- 
roundingSound n’etant audibles que dans les regions auxquelles ils ont ete associes, ils 
jouent veritablement le role d’horizon sonore. Enveloppant toujours I’auditeur, il suffit 
done de leur appliquer une transformation de rotation pour simuler la rotation du point 
d’ecoute. Une distorsion de perspective pent aussi etre envisagee pour simuler I’effet 
d’eloignement du centre de la zone d’activation. 

13.1.2 Exemple de complementarite du point de vue et du point d’ecoute 

Complementarite a petite echelle Comme il est illustre Figure 13.4, la methode 
proposee par Viaud-Delmon et al. [VDWS+06] illustre bien la complementarite que nous 
avons definie pour une petite echelle : entendre une petite partie precisement {i.e. le 
focus), lorsqu’on ne pent voir qu’un grand ensemble avec pen de details {i.e. le contexte). 

- Chaque micro-paysage est extremement detaille et organise selon differents plans 
sonores, grace a I’utilisation conjointe des DirectiveSound et des Surrounding- 
Sound. 
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- En contrepartie, le champ de perception du point d’ecoute est tres reduit, puisque 
la resolution de rechantillonnage spatial est tres eleve et les sons d’une zone ne 
sont pas audibles en dehors de celle-ci. 



—.... 1' -r—r--- — ; 




(CO) 


- C«-») ^ 


DirectiveSound 




SurroudingSound .. 


Champ de perception visuelle Champ de perception sonore 


Fig. 13.4 - Creation d’un paysage sonore pour la navigation dans un environnement 
virtuel a petite echelle, lorsque le point de vue et le point d’ecoute sont complemen- 
taires. Chaque zone est potentiellement composee d’un SurroundingSound et d’un cer¬ 
tain nombre de DirectiveSound. Elies sont mutuellement exclusives, car seuls les evene- 
ments sonores de la zone on se trouve le point d’ecoute sont audibles. 


La fonction pan est done ici I’exclusivite du point d’ecoute. C’est la vue qui oriente 
la prise d’information auditive sur I’espace. La modalite visuelle prenant en charge les 
aspects topologiques de la representation spatiale et la localisation des objets, la moda¬ 
lite auditive est alors libre d’offrir ce pour quoi elle est sans doute la plus pertinente : 
Videntite et V occupation d’un lieu. Par exemple, a supposer qu’un utilisateur cherche un 
certain type de restaurant a I’aide du service Rennes Citevision, I’interface est capable 
de communiquer visuellement avec une tres grande efficacite^ la position de chacun 
d’eux, par la simple superposition de symboles sur une carte une photographie aerienne 
(voir Annexe B). En revanche, ce qu’elle ne pent typiquement pas communiquer de 
fagon aussi schematique, c’est I’activite du lieu on se trouve I’entite recherchee et, even- 
tuellement, les autres entites qui s’y trouvent. En resume, la representation sonore pent 
fournir quantite d’informations complementaires et a priori superflues, puisqu’elles ne 
sont pas explicitement I’objet d’une requete. Meme si ces informations n’ont pas de lien 
direct avec la tache principale, elles peuvent malgre tout se reveler pertinentes pour 
I’utilisateur : 

- « L’endroit on se trouve le restaurant est plutot calme on anime, certains bruits 
®Bien plus grande que n’en est capable la modalite auditive. 
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sont plutot genants, a cause de la proximite d’un vole de chemin de fer ou, au 
contraire, agreable grace a la la proximite d’un cours d’eau », 

« II y a une station de metro juste a cote, ainsi qu’un marche pour faire mes 
courses et un square pour divertir mes enfants ». 


Complementarite a grande echelle Dans ce cas, c’est I’ouie, qui a pour function 
d’orienter la prise d’information visuelle, puisque le point de vue ne fournit plus au- 
cune information sur le contexte spatial. La « portee » du champ de perception sonore 
est alors maximale pour que la modalite auditive soit en mesure d’indiquer la position 
d’un site, ou qu’il soit. Les micro-paysages qui composent I’environnement n’etant plus 
mutuellement exclusifs, mais potentiellement actifs en permanence, il est necessaire de 
definir le « comportement » d’un champ sonore, lorsque le point d’ecoute entre ou sort de 
la zone a laquelle il est associe. Comme il est illustre Figure 13.5, cela necessite d’avoir 
recours a une distorsion de perspective pour simuler le rapprochement ou I’eloignement 
d’un groupe de sources et d’adapter le niveau sonore en consequence. D’ailleurs, n’etant 
plus que des points ponctuels pour une distorsion angulaire importante {i.e. a grande 
distance), on pent envisager de les remplacer par des Directivesound. L’usage des Sur- 
roundingSound n’est done plus restreint a la creation d’« horizons sonores », ils tendent 
a devenir de veritables balises, puisqu’ils peuvent etre localisables. 



Distorsion de Remplacement par un 
perspective DirectiveSound 


Fig. 13.5 - Simulation de I’effet d’eloignement d’un groupe de sources sonores grace a 
la distorsion de perspective d’un Surrounding Sound. Au dela d’une certaine distance, 
on pent envisager de le remplacer par unique DirectiveSound. 


Comme pour la modalite visuelle a petite echelle une augmentation trop importante 
du nombre d’evenements sonores audibles conduit inevitablement a une surcharge d’in- 
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formation, nuisible a la « lisibilite » de la representation sonore de I’espace. Que ce soit 
pour les DirectiveSound ou Surrounding Sound, I’application d’une attenuation en fonc- 
tion de la distance tend a resoudre naturellement ce probleme. Cependant, d’un point 
de vue informationnel, cela revient en quelque sorte a considerer que les donnees les plus 
importantes pour I’utilisateur sont cedes qui sont referencees dans son environnement 
le plus immediat {i.e. les evenements sonores les plus proches du point d’ecoute). Or, la 
particularite des systemes d’information ou de toute autre application ayant la liberte 
de s’abstraire de la dimension naturaliste de la realite virtuelle (les jeux, en I’occur- 
rence) est justement de pouvoir donner la priorite aux informations utiles pour la tache 
que doit accomplir I’utilisateur. Par exemple, pour un systeme d’information geogra- 
phique tel que Rennes Citevisions, les informations utiles sont visibles tres clairement 
a grande echelle par I’utilisation de symboles en surimpression. Dans le jeu Civilization 
IV, les modeles 3D des unites, les ressources, la vegetation et toutes les caracteristiques 
d’une cite pouvant renseigner de I’etat de la civilisation (culture, religion, technologie, 
armement, etc.), sont exagerement disproportionnees (voir Annexe B). 


Reduction du niveau de detail On pent appliquer un tel zoom semantique sur la 
representation sonore de I’espace. C’est d’ailleurs ce que signifie « entendre un grand 
ensemble avec peu de details », dans le cas d’une complementarite a grande echelle. II 
ne s’agit pas tant de reduire le niveau de detail en termes de rendu, comme le propose 
Tsingos et al. [TGD03] [TD04] [seetion 5.2.2.1), qu’en termes de densite d’information 
transmise {i.e. optimiser les « ressources perceptives et cognitive » de I’auditeur). Par 
exemple, si Ton veut donner un apergu le plus representatif possible du paysage sonore 
de la ville de Paris, on pent limiter la reproduction sonore en dehors du champ visuel a 
celles qui sont les plus typiques de la ville. Pour cela, on pent s’inspirer de travaux tels 
que ceux de Maffiolo et al. ([MVP"’'98] cite dans [Gua03]), qui ont essaye de determiner 
ce que representait le « Paris sonore » pour ses habitants. Voici, a titre illustratif, ceux 
qui ont ete les plus citees : 

- I’animation des Halles, du quartier latin, du parvis de Beaubourg et des rues de 
Montmartre, 

- la circulation sur les quais de Seine, sur le peripherique, sur la place de la Bastille, 
sur la rue de Rivoli, 

- les promenades du cimetiere du Pere Lachaise et du Marais, 

- les marches de la rue Mouffetard et d’Alligre, 

- les oiseaux et les enfants des Buttes Ghaumont, du Jardin des Plantes et du Bois 
de Vincennes. 

Ainsi, comme I’a suggere Schafer [Sch93] {section 5.1.1.3), certains sons (les em- 
preintes ou soundmarks) peuvent « marquer » un paysage sonore, comme certains mo¬ 
numents « marquent » un paysage visuel. Or, pour la plupart des systemes cartogra- 
phiques courants, tels que Rennes Citevisions ou tout simplement le service web des 
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pages jaunes, s’il faut reduire la densite de I’information relative au contexte spatial^, 
ce sont de telles « entites » que Ton choisit de representer en priorite. Ainsi, comme 11 
est illustre Figure 13.6, rechantillonnage spatial reste inchange, a grande echelle. En 
revanche, un certain nombre de partitions spatiales, selectionnees selon certains criteres 
de priorite, deviennent audibles. 



Champ de perception sonore Champ de perception visuelle 


Fig. 13.6 - Creation d’un paysage sonore pour la navigation dans un environnement 
virtuel a grande echelle, lorsque le point de vue et le point d’ecoute sont complemen- 
taires. Un certain nombre de partitions spatiales, selectionnees selon certains criteres de 
priorite, deviennent audibles. 


Or, la selection qui a ete operee n’empeche pas la densite d’information d’augmen- 
ter, ainsi que la charge des algorithmes de rendu, puisqu’a I’horizon sonore de la zone 
courante {i.e. le SurroundingSound de la zone on se trouve le point d’ecoute), s’ajoutent 
desormais les micro-paysages selectionnes pour representer le contexte spatial. Pour re- 
medier a cela on pourrait considerer, d’une part, que seuls les SurroundingSound sont 
audibles en dehors de leur zone d’activation respective et, d’autre part, que ce nouvel 
horizon remplace progressivement celui cree par le SurroundingSound de la zone cou¬ 
rante [e.g. simple cross-fade en fonction du changement d’echelle). Comme il est illustre 
Figure 13.7, le paysage serait ainsi constitue, en tout point de I’espace, du Surrounding¬ 
Sound de la zone de focus et des SurroundingSound du contexte spatial, dont le niveau 
global {i. e. le champ intensity, d’apres la semantique de la norme MPEG-f ) serait deter¬ 
mine par I’echelle (on I’elevation de la camera). En outre, comme nous I’avons suggere 
precedemment (Figure 13.5), le niveau de chaque SurroundingSound de contexte varie 
independamment, en fonction de la distance entre son point de reference {i.e. le champ 

■^Par opposition au focus, le contexte spatial est tout ce qui est en dehors du champ visuel. Mais il 
peut aussi s’agir de tout ce qui ne concerne pas directement la tache courante, comme par exemple les 
entites qui ne sont pas explicitement recherchees, mais qui sont utiles au reperage dans 1’environnement 
{e.g. edifices a I’architecture remarquable, sites touristiques, etc.). 
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location) et le point d’ecoute {i.e. le champ distance). 




Fig. 13.7 - Example de zoom semantique en fonction du changement d’echelle, pour un 
point d’ecoute et un point de vue complementaire : cross-fade entre les Surrounding- 
Sound du contexte et le Surrounding Sound du focus. 


13.2 Zoom semantique et modification des proprietes de la 
representation sonore 

L’objectif de la section precedente etait d’illustrer a I’aide d’un example concret 
le type de choix auquel pourrait etre confronte un designer, s’il devait creer le pay- 
sage sonore d’un environnement virtue! de grande ampleur, comma c’est le cas pour les 
maquettes de villas en 3D. Meme s’il parait pertinent d’etablir une forme de comple- 
mentarite entre le point de vue et le point d’ecoute, cela releve avant tout d’un choix, 
lors de la phase de creation de contenu. Dans notre cas, le choix etait plutot porte sur 
une optimisation de la quantite d’information transmise pour ameliorer I’accessibilite 
d’un environnement virtual lors d’une navigation en survol. D’autres choix sont pos¬ 
sibles comma, par example, entretenir une forme de redondance en faisant du couple 
oeil/oreille un ensemble solidaire, dans I’espoir de renforcer la sensation de presence on 
d’immersion. Une telle approche est souvent rencontree dans les jeux video et n’est pas 
I’exclusivite des jeux de tir en vue subjective. Ainsi, dans de nombreux jeux d’aventure- 
action a la troisieme personne, la position du point d’ecoute coincide avec celle de la 
camera, non avec celle du personnage que I’on controle. Plus surprenant, on retrouve 
encore une telle redondance dans des jeux de guerre on de strategie, tels que Civilization 
IV on Black & White 2 (voir Annexe B). 

En outre, on pent envisager differentes transformations s’appliquant aux Directi- 
veSound on aux SurroundingSound, pour modifier les proprietes de la representation 
sonore lors du zoom semantique. Meme si elles peuvent etre similaires a cedes employees 
pour I’optimisation des ressources {e.g. le regroupement de sources, le mixage pour la 
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creation d’un imposteur), elles ne peuvent etre considerees aisement comme des pro¬ 
cessus « automatisables ». Typiquement, la notion de « densite d’information » est une 
notion mal definie et difficilement accessible a la quantification, a la difference d’un 
seuil de discrimination perceptive^. Les algorittimes de generalisation sont applicables 
aux representations geometriques « simples » (on « vectorielles »), telles que les cartes 
routieres, mais faillissent a prendre en compte la capacite expressive on « la quantite de 
sens » que vehicule un signe, particulierement dans le cas de la modalite auditive. Ainsi, 
a I’instar de I’application DataSplash {section 5.2.2.2) de Woodruff et al. [WLS98], 
an mieux peut-on assister la conception de representations sonores multi-resolution (et 
d’interfaces sonores zoomables) en proposant une variete d’« outils bien choisis » de 
transformation d’une scene sonore. Or, d’apres le modele par couche presente par Huai- 
Chi et Riedl [CR98] {section 5.2.2.3), I’interaction ne se fera pas an meme « niveau 
d’abstraction », selon la tache a accomplir on les capacites perceptives et cognitives de 
I’individu. Voyons deja quelles peuvent etre ces transformations, en n’oubliant pas de 
distinguer les operateurs de « donnees » {e.g. ajouter un ensemble de donnees a I’ancien) 
des operateurs de « rendu » {e.g. rotation de Tangle de vue on d’ecoute). 

13.2.1 Transformation de donnees 

Nous avons en Toccasion de remarquer {section 9.1.1) que la gestion des interactions 
devait etre fondee sur un « modele semantique » de Tenvironnement, combinant les 
aspects symboliques et geometriques. Ce « modele semantique » correspond, dans le 
processus de representation d’information de Huai-Chi et Riedl [CR98], a l’« abstraction 
analytique », soit les informations utiles du point de vue de I’utisateur et/ou de la tache a 
accomplir. Or, pour la conception d’une interface de navigation dans un environnement 
sonore 3D, comme pour la representation de donnees georeferencees, il pent etre utile 
de disposer de deux types d’informations : 



■ Air Th^atiques 


Fig. 13.8 - Extraction d’une organisation ttiematique et spatiale pour Vabstraction 
analytique. 


®Le calcul de la sonie des sons complexes on encore le modelisation du demasquage spatial, si vital 
au « perceptual culling » de Tsingos et al. [TGD03] [TD04], ne sont cependant pas des phenomenes 
triviaux, et posent encore de nombreuses questions aux psychoacousticiens a I’heure actuelle. 
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- (Relatives au contexte spatial) Par exemple, la connaissance du reseau de 
route permet de representer autrement les informations de distance et de direc¬ 
tion lors d’une navigation en vue subjective {section 9.2.2). La connaissance de 
V organisation spatiale (Figure 13.8), quant a elle, offre I’occasion d’adapter le 
contenu et la position des balises afin de rendre compte de I’existence de districts 
(ou de zone) structurant I’environnement explore (voir Annexe A). 

- (Relatives aux donnees qui y sont referencees) . Par exemple I’existence 
d’une organisation thematique (Figure 13.8) permet de creer differentes couches 
d’objets pour la representation, ce qui simplifie le processus d’optimisation de la 
quantite d’information {section 5.2.2.2). 

La connaissance des organisations spatiales et thematiques permettent alors de rea- 
liser differentes operations telles que la selection (Figure 13.9.a et 13.9.b) ou I’agregation 
(Figure 13.9.c) : 



^ Sources 
audibles 


Fig. 13.9 - (a) et (b) Selection : creation d’un sous-groupe dans I’organisation the¬ 
matique ou spatiale. (c) Agregation : remplacement d’un sous-groupe de I’organisation 
spatiale par un seul element. 


- (Selection) Cette operation consiste a extraire un sous-groupe dans I’organisa¬ 
tion thematique ou spatiale. Tandis que pour I’optimisation des ressources on 
selectionne les sources sonores audibles a I’aide d’un systeme de priorite fonde sur 
les phenomenes du masquage {i.e. perceptual culling), ici, on les selectionne selon 
le degre d’interet pour la tache et/ou pour I’utilisateur. Ce filtrage est soit I’objet 
d’une requete explicite de I’utilisateur {e.g. « rechercher les restaurants avec ter- 
rasse »), soit la consequence d’une action definie par un certain scenario {e.g. ne 
representer que les zones dont le micro-paysage est representatif du Paris sonore 
lorsque la camera est en dessous d’une certaine elevation). 

- (Agregation) Cette operation consiste a remplacer un sous-groupe de I’organi¬ 
sation spatiale par un seul element. Elle est done utilisee conjointement avec une 
operation de selection®. Encore une fois, plutot que regrouper les sources pour 
optimiser les algorithmes de rendu sonore, on pent regrouper les objets d’une 
meme zone geographique pour qu’ils ne soient plus representes que par une seule 

^selection d’un sous-groupe dans I’organisation spatial qui donne une nouvelle reference spatiale 
{e.g. le barycentre de la zone consideree) et selection des objets dans ce sous-groupe qui contribueront 
a la creation de I’imposteur 
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balise sonore (voir Annexe A). Optimisant ainsi le nombre de balises utiles pour 
la navigation, cette forme de reduction du niveau de detail (ou zoom semantique) 
permet de rendre un paysage sonore plus « lisible », a condition de bien ctioisir la 
« source-imposteur ». 

13.2.2 Transformation de rendu 

Les elements de I’espace d’abstraction analytique (I’organisation thematique et/ou 
spatiale des donnees georeferencees) sont ensuite mis en correspondance avec les ele¬ 
ments de I’espace dit d'Abstraction de Sonification (resp. de Visualisation). Nous avons 
vu que les elements de cet espace pouvaient etre mis en relation avec la description 
de scene BIFS et particulierement 1’ audioBIFS, dont nous avons retenu essentiellement 
I’opposition fondamentale entre Directivesound et SurroundingSound. Tout d’abord, 
rappelons que ces deux noeuds audio ne se distinguent pas uniquement par leur ap- 
proche de la synthese des effets de spatialisation {i.e. « centree sur I’objet » vs. « centree 
sur le champ sonore »). Suite a I’etude de la litterature (voir, notamment les sections 
3.2.2, 5.1.1.3 et 5.2.1.3), void quelques hypotheses que Ton pent emettre quant a leurs 
functions et usages respectifs : 

- (DirectiveSound) Ils sont attaches individuellement a des objets dans I’environ- 
nement virtuel. An dela du fait qu’ils soient potentiellement « visualisables », ils 
entretiennent, plus generalement, un lien tres intime avec Taction (s’exprimant 
indirectement par les mouvements du point d’ecoute). Etant « dynamiquement lo- 
calisables », ils peuvent exprimer non seulement la direction d’un objet, mais aussi 
sa proximite {i.e. balises sonores). Tant du point de vue du rendu que de I’infor- 
mation transmise, ils sont sujet a la « priorisation » et a la selection (un mixage, 
ni plus ni moins, au sens des ingenieurs du son). Ils sont done naturellement des 
elements de detail, tantot de premier plan (ou Figure), tantot d’arriere-plan (ou 
Ground). Ils sont garants, en grande partie, de la dynamique d’un micro-paysage 
sonore. 

- (SurroundingSound) Qu’ils soient la reproduction d’une ambiance reelle ou 
« construits de toute piece » a Taide d’enregistrements eparses et/ou de sons de 
synthese, ils constituent, au premier abord, I’arriere plan (ou Ground) d’un pay- 
sage sonore. Jouant le role de tonalite (d’apres la terminologie de Schafer [Sch93]), 
il s’agit d’une sorte de reference, grace a laquelle les autres sons {i.e. les Directi¬ 
veSound) peuvent prendre tout leur sens. En general, ils semblent devoir etre en 
charge des informations de contexte et plus precisement du contexte semantique 
{e.g. Videntite, Voccupation). Cependant, de fagon plus prosai'que, ils sont aussi 
I’occasion d’une forme d’« economie » des effets de spatialisation. Un paysage so¬ 
nore tres riche pent en effet etre cree tout en optimisant le nombre de « canaux 
de spatialisation'^ » et de flux audio a decoder. Etant donne les limites des trans¬ 
formations de rotation et de distorsion de perspective, la substitution d’un groupe 

^voir section 5.2.2.1, la remarque de Tsingos et al. [TGD03], sur rutilisation d’une methode similaire 
au Virtual Surround, pour la realisation d’un regroupement de sources (ou clustering) a grille fixe. 
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de DirectiveSound par un unique Surrounding Sound peut bien etre consideree 
comme une degradation du rendu sonore. 

Pour la representation sonore d’informations relatives a la « carte » d’un jeu tel 
que Civilization IV (Figure 13.10), les Surrounding Sound (correspondant a des fichiers 
stereophoniques appeles « Ambiance 2D ») sont effectivement utilises pour representer 
les elements du terrain (foret, tundra, desert, plaine, oasis, cote, ocean, etc.) ou une 
zone d’tiabitation (cite ancienne ou moderne, grande ou petite). Un certain nombre de 
DirectiveSound (correspondant a des fichiers monophoniques appeles « Ambiance 3D ») 
sont alors utilises pour enrichir ces ambiances sonores lorsque la camera se rapproche de 
la region concernee {e.g. certains cris d’animaux pour les forets, un bruit de cloche ou 
d’une voiture qui passe pour les villes, etc.). D’autres sont utilises pour representer des 
entites « ponctuelles et visualisables » (sons d’effet 3D), correspondant generalement 
aux differentes ressources naturelles ou artificielles [e.g. cours d’eau, mines, elevage, or, 
etc.). 



Fig. 13.10 - Illustration d’un usage conjoint des SurroundingSound et des Directive- 
Sound pour la representation sonore d’informations relatives a la « carte » d’un jeu 
{Civilization IV). 


Le mixage des sons d’ambiance 2D et 3D illustre bien le fait que les DirectiveSound 
sont garants, en grande partie, de la dynamique d’une ambiance ou d’un micro-paysage 
sonore. Cette balance de niveau, modifiant la representation sonore d’une region de 
I’espace {i.e. zoom semantique), est un premier exemple d’operateur de « rendu ». Cela 
consiste simplement a faire varier le niveau global des sons en manipulant les champs 
intensity des noeuds audio. Cependant on peut obtenir un resultat identique en ma¬ 
nipulant I’attenuation du son en fonction de la distance au point d’ecoute. Ces deux 
acces au controle du niveau sonore pergu ne sont toutefois pas redondant, puisqu’ils 
permettent d’associer differentes types de variation du niveau a differents evenements 
de I’interface. Dans I’exemple precedent de complementarite a une grande echelle, nous 
avions ainsi suggere d’associer le niveau global de certains SurroundingSound a I’eleva- 
tion de la camera {i.e. zoom) et I’attenuation en fonction de la distances a sa position 
dans le plan horizontal {i.e. pan). 
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Comme nous I’avons deja souligne, I’application d’une attenuation en fonction de la 
distance tend a resoudre naturellement les problemes eventuels de surcharge d’informa- 
tion en considerant que les sons les plus importants pour rutilisateur sont ceux qui sont 
le plus proche du point d’ecoute. Dans la plupart des langages de description de scene 
et autres interfaces de programmation, ce type d’operations est associe a un modele de 
I’emetteur (source on champ sonore), presentant generalement les parametres suivant : 
Mininum Distance^, Maximum Distance^, Rolloff^^ et Distance to Silence^^ (Figure 
13.11.a). 



® Sources 

• • ^ audibles 


(b) 


(c) 


(a) 


Fig. 13.11 - Operateurs de selection dans 1’Abstraction de Sonification. (a) Utilisation 
des parametres definis par le modele de I’emetteur (source ponctuelle on champ sonore) : 
une entite est inaudible an dela d’une distance d. (b) et (c) Utilisation des parametres 
definis par le modele du recepteur (le point d’ecoute) : une entite est inaudible si elle n’est 
pas a I’interieur du « champ de perception » (cercle de rayon R on secteur angulaire 
d’orientation 9 et d’angle D). 


La meme contrainte pent done etre appliquee directement an modele du recepteur 
{i.e. le point d’ecoute). Dans ce cas, on pent considerer que les seules sources audibles 
sont celles qui se situent a I’interieur de la surface delimitee par un cercle dont on modifie 
le rayon R (Figure 13.11.b). C’est aussi le systeme de priorite le plus simple que Ton 
puisse imaginer pour limiter le nombre de « canaux hardware » lors du rendu des effets 
de spatialisation (voir section 5.2.2.1). Une autre fagon d’operer une telle selection est 
de considerer, par analogie avec le « faisceau attentionnel » (on spatial spotlight), que 
seules les sources, dont I’azimut est compris dans un secteur angulaire determine par 
une direction 6 et un angle D, sont audibles (Figure 13.11.c). Cependant, on pent aussi 
considerer un gradient spatial rehaussant progressivement le traitement des evenements 
sonores dans une direction, sans necessairement rendre inaudibles ceux qui ne sont pas 
I’objet d’un tel focus. 


® Distance a partir de laquelle le son on le champ sonore commence a etre attenue 
^Distance a partir de laquelle le son ou le champ sonore n’est plus attenue 
^°Pente de I’attenuation en fonction de la distance 
Distance a partir de laquelle un son n’est plus audible (ou actif), quelle que soit I’attenuation 
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13.3 Objectifs du developpement de I’interface de creation 
de scene sonore interactive 

Les problematiques que nous avons introduites depuis le debut de ce chapitre, sont 
bien trop vastes pour que nous ayons pu, dans le cadre de notre travail de recherche, 
les approfondir plus encore. Nous avons tout de meme eu I’occasion de presenter un 
exemple simple de complementarite du point de vue et du point d’ecoute et de proposer 
differentes transformations qu’il etait possible d’appliquer pour modifier les proprietes 
de la representation sonore de I’espace {e.g. la carte d’un jeu de strategie). Pour aller 
plus loin, il nous faudrait affiner nos hypotheses et confronter les diverses solutions de 
design, qui nous sont offertes, lors de I’accomplissement d’une tache de navigation en 
survol. Or, souhaitant approfondir en priorite les aspects « systeme », il n’etait pas en- 
visageable de mener, en plus, une etude complete d’’utilisabilite, comme cela a ete fait 
pour notre premiere experience. Nous resterons done an stade de la speculation quant 
a la complementarite/redondance du point de vue et du point d’eeoute et de la creation 
de representation sonore multi-resolution. 

En fait, il nous parait plus urgent d’approfondir la question de la mise en oeuvre 
des Surroundingsound. D’ailleurs, e’est encore Tune des grandes lacunes des interfaces 
de programmation (API) actuelle, qui ne prennent pas veritablement en compte le fait 
qu’un flux audio multicanal puisse etre traite de fagon analogue, en termes de spa- 
tialisation, a un flux audio monophonique. En effet, nous avons pu remarquer qu’un 
SurroundingSound, grace a certaines transformations (rotation et distorsion de pers¬ 
pective), pouvait mimer le comportement d’un groupe de sources sonores ponctuelles, 
lorsque le point d’eeoute se deplagait dans la scene. Tout porte meme a penser que les 
SurroundingSound sont en mesure de se substituer aux DireetiveSound et ne plus etre 
cantonnes a leur role d’« arriere-plan enveloppant ». Si tel est le cas, il serait bienvenu 
d’expliquer comment et d’evaluer la degradation d’une telle reduction du niveau de de¬ 
tail. 

Les travaux que nous avons realises comportent done deux aspects. Tout d’abord, 
nous avons propose une methode simple de mise en oeuvre des SurroundingSound, grace 
a une technique de panoramisation par paires de haut-parleurs virtuels. Nous avons 
alors developpe en C++, grace a I’aide precieuse de Yann Wogenstahl (a I’epoque, pres- 
tataire de service a France Telecom R&D), une interface presentant, entre autres, les 
fonctionnalites requises pour : 

- la creation de scenes sonores a partir d’une description geometrique rudimentaire 
{e.g. une scene VRML), 

- I’extraction des organisations spatiale et thematique, 

- la spatialisation des SurroundingSound, 

- et la reduction du niveau de detail d’une scene sonore grace a la substitution des 
DireetiveSound par des SurroundingSound. 
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Fig. 13.12 - Modele simplifie de I’interface de creation de scene sonore interactive. 


Comme il est illustre Figure 13.12, Telement central de cette interface est le Controler 
qui se chargera, entre autres, de la creation des organisations ttiematique et spatiale, a 
partir d’une scene 3D an format VRML. C’est lui qui determinera les actions du systeme 
en fonction des actions de I’utilisateur. En particulier, il appliquera les transformations 
de rotation et de distorsion de perspective aux Surrounding Sound en fonction du mou- 
vement du point d’ecoute, puisque I’API audio ne pent s’en charger. 



Fig. 13.13 - Capture d’ecran de I’interface developpee. 


En outre, il nous a fallu developper une interface graphique donnant un acces simple 
aux differents parametres de controle du rendu sonore {Mininum Distance, Maximum 
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Distance, Rolloff, etc.) et permettant I’application de filtres, le mixage et, surtout, le 
chargement et Texportation d’une scene. Enfin, comme on pent le constater sur la Fi¬ 
gure 13.13, I’interface offre aussi une representation visuelle de la scene 3D. 

C’est grace a cette application que nous pu creer facilement le corpus sonore utilise 
pour revaluation qualitative de la substitution des DirectiveSound par des Surrounding- 
Sound. Mais avant de presenter I’experience que nous avons menee, nous allons presenter 
plus en detail les principales fonctionnalites de I’interface et son architecture. 
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Chapitre 14 

Conception et mise en oeuvre de 
I’interface de navigation interactive 


L’application que nous avons developpee presente un certain nombre de fonctionna- 
lites, qui sortent un pen du cadre de la presente etude. En effet, nous aurions souhaite 
qu’elle puisse permettre la creation de representations sonores multi-resolution, un pen 
la maniere de I’application DataSplash que nous avons presentee section 5.2.2.2. Or, 
dans son etat actuel, I’interface n’a concretement de zoomable que le nom [ZARA, pour 
Zoomable Auditory Rendering Application) et la representation visuelle. Cependant, 
pour mettre en oeuvre la complementarite du point de vue et du point d ’ecoute, tel que 
nous I’avons suggere dans Texemple de la section 13.1.2, encore fallait-il etre en mesure 
de spatialiser les Surrounding Sound dans les termes que nous avions definis. Done plu- 
tot que de developper et de mettre a disposition de I’utilisateur tout un panel d’outils 
permettant de modifier dynamiquement la representation sonore de I’espace, nous nous 
sommes concentres sur le processus de creation de scenes sonores interactives a I’aide de 
Surrounding Sound. Nous allons done, dans un premier temps presenter les principales 
fonctionnalites de ZARA. Bien qu’elle n’integre aucune des transformations que nous 
avons proposees pour le « zoom sonore », nous verrons qu’elle propose tout de meme 
I’ebauche d’une methode de reduction du niveau de detail d’une scene. 

14.1 Presentation des principales fonctionnalites de I’ap¬ 
plication ZARA 

14.1.1 Definition d’une scene sonore 

Tout d’abord, nous devons disposer d’une description de la scene, a partir de laquelle 
nous pouvons extraire facilement les aspects geometriques et symboliques. Comme nous 
r avions remarque lorsque nous avons decrit la plateforme de test de la premiere expe¬ 
rience {section 9.1.1), il est possible de se servir d’un logiciel tel que 3DS max, pour 
creer cette description. Cependant, une scene etant le plus souvent organisee de fagon 
hierarchique, on preferera le format VRML an format Wavefront Object (*.obj). 
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Nous faisons une utilisation quelque peu detournee de VRML, pnisqn’il constitne 
veritablement nn langage de description de scene a I’instar dn format BIFS, qni s’en 
est beanconp inspire. En effet, nons n’ntilisons pas la definition des noends andio et 
considerons simplement qn’a nn objet 3D correspond nn fichier andio. Ainsi senls nons 
interessent la position des objets, lenr nom, le fichier de textnre associe et le graphe de 
scene : 

- Comme il est illnstre snr la fignre 14.1, a I’objet « s_obj_i » est associe le ieme 
Directivesound de la zone delimitee par I’objet parent « zone_ 01 » (le prefixe 
« s_ » signifie qne la sonrce sonore est statiqne^). Si le fichier andio existe, nn 
Surroundings ound sera associe a cet objet parent. 

- Le fichier VRML permet de recnperer tres simplement le graphe de scene, done 
I’organisation spatiale des objets. En effet, on remarqne bien, dans I’exemple de 
la fignre 14.1, qne le noend children de I’objet « zone_01 » regronpe I’ensemble 
des objets « s_obj_i ». 

- Le noend translation donne la position dn son dans le referentiel de I’objet parent. 

- le champ url dn noend texture donne le nom dn fichier andio associe a I’ob¬ 
jet. C’est grace a cette chaine de caractere qne I’on pent extraire I’organisation 
thematiqne des objets DirectiveSound, en imposant la convention d’ecritnre : « ca- 
tegorie_nom » (on « categorie_categorie_nom », etc.) 


Fichier VRML 



Fig. 14.1 - Exemple de description d’nne scene elementaire composee de six Directi¬ 
veSound et d’nn SurroundingSound. Cette scene sonore est nn micro-paysage dont les 
limites sont donnees par les dimensions de I’objet parent. 


Ces zones sont, en qnelqne sorte, I’eqnivalent des boites englobantes, ntilisees 
dans VAdvanced AudioBIFS {section 5.2.1.1) ponr definir nne zone d’econte. Ponr 

^Nous avons aussi implemente un systeme d’automate se deplagant aleatoirement suivant un « reseau 
de route », pour etre en mesure de definir des sources dynamiques dans la scene (nommees « d_ obj_ i»). 
Cependant, ce cas d’usage sortant du cadre de notre etude, nous n’avons pas souhaite I’introduire ici. 
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V auralisation des environnements virtuels, elles permettent de regrouper les differentes 
surfaces acoustiques sous un meme noeud Group, afin d’assigner differentes « signa¬ 
tures acoustiques » (essentiellement les effets de reverberation), a differentes regions de 
I’espace. Elles symbolisent done une forme de discontinuite ou meme de rupture dans 
le paysage sonore, que ce soit en termes d’effet de salle (« signature acoustique ») ou 
d’ambiance (« signature semantique »). 

L’assemblage de ces zones pent etre realise de differentes fagons et exprimer differents 
« degres de rupture ». Par exemple, on pent simplement juxtaposer plusieurs zones 
au meme niveau de la hierarchie (Figure 14.2.a), pour creer un tout coherent comme 
nous I’avons suggere au chapitre precedent. On pent aussi complexifier le graphe de 
scene en ajoutant des zones a I’interieur d’une zone. Par exemple, dans la scene de la 
Figure 14.2.b, on trouve deux scenes d’exterieur (la « Ville » et la « banlieue »), qui 
contiennent chacune deux scenes d’interieurs (« bureau » et « atelier » pour la « ville », 
« salon » et « cuisine » pour la « banlieue »). Dans chacune de ces zones sont definis un 
Surrounding Sound et un ensemble de DirectiveSound. 



(a) (b) 


Fig. 14.2 - Exemples de scene sonore decrite a I’aide de 3DS max : juxtaposition de 
plusieurs zones (a) au meme niveau hierarchique et (b) a des niveaux hierarchiques 
differents. 


Nous offrons enfin la possibilite de definir les chemins qui seront empruntes par le 
point d’ecoute. S’inspirant de la methode employee pour la maquette de la premiere 
experience {section 9.1.1), il suffit d’ajouter dans la scene autant de noeuds (nommes 
« path_node_i ») et de segments (nommes « path_link_j ») qu’il est necessaire pour 
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le reseau de route^. Si un tel reseau existe, les deplacements du point d’ecoute dans la 
scene seront semi-automatises : par simple pression des fleches de direction, celui-ci est 
conduit a vitesse constante du noeud courant a I’un des noeuds connexes (voir section 
9.1.2) . 


14.1.2 Mise en oeuvre des Surrounding Sound 

Nous avons deja eu I’occasion de decrire une mettiode pour mettre en oeuvre les 
Surroundingsound pour un encodage Ambisonic d’ordre 1 {section 5.2.1.3). Meme si 
cette methode semble tres prometteuse, nous avions cependant remarque qu’il valait 
mieux, dans un premier temps, approfondir la voix de la panoramisation par paires. 
En effet, la methode est ici assez simple et pourrait meme se reveler assez efficace. En 
outre, contrairement a ce que Ton pourrait penser, meme s’il est possible dans la plu- 
part des API audio de « lire » des fichiers audio multicanal, seules les plus recentes {e.g. 
FMOD Ex de FireLight technologies ou XAudio 2 de Microsoft) mettent concretement 
en oeuvre des methodes permettant leur manipulation. Par exemple, I’API FMOD Ex 
de FireLight technologies, offre la possibilite de les associer a des sources 3D « position- 
nables », en traitant chaque canal comme une source ponctuelle. 


Comme I’illustre la Figure 14.3, I’API se charge done de la rotation du champs sonore 
lorsque le point d’ecoute pivote sur lui-meme en appliquant simplement une matrice de 
gain aux differents canaux qui composent le Surrounding Sound {Lin, ILn, Rsin et Lsin). 
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Fig. 14.3 - Exemple de rotation d’un Surroundingsound 4 canaux, pour un systeme de 
diffusion quadriphonique (haut-parleurs espaces regulierement de 45 °) • 


La distorsion de perspective, quant a elle est laissee a la charge du programmeur, 
grace a une function dite de spread. Par defaut, un son multi-voix sera pergu comme 
une source ponctuelle (angle de spread de 0 °) a I’azimut 9, imposee par la position 
relative^ du Surrounding Sound. Comme il est indique sur la figure 14.4, I’augmentation 

’^Les informations utiles au deplacement dans le graphe (voir les fichiers « PropNoeud » et « Tous- 
NoeudsVoisins », decris section 9.1.1) sont extraites, cette fois-ci, au chargement de la scene dans 
I’application. 

^relative a la position du point d’ecoute 
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de Tangle de spread de 0 ° a 360 ° fait passer le champ sonore, par simple « homothetie 


angulaire », de la « fermeture ; 

» a T« ouverture » totale. 


Spread .0 = 0° 

Spread: 0 = 180° 

Spread: 0 = 360° 





1 

< 

.r 



V ^ 



Fig. 14.4 - Distorsion de perspective par « homothetie angulaire » (fonction de spread), 
de la « fermeture » a l’« ouverture » totale. 


Cette methode de distorsion de perspective est assez similaire, dans son approche, 
a la « transformation de Lorentz » appliquee a un champ Ambisonic {section 5.2.1.3) : 
chacnne des sources ponctuelles encodees par le champ sonore suivra la meme modifi¬ 
cation « apparente » d’azimut, a un coefficient multiplicateur pres. Or, si Ton considere 
une scene sonore composee uniquement de DirectiveSound (Figure 14.5), on constate 
que la variation apparente d’azimut est loin d’etre continue lorsque le point d’ecoute 
s’en eloigne. 



Fig. 14.5 - Variation apparente d’azimut des sources ponctuelles d’une scene sonore 
composee uniquement de DirectiveSound. 


Or, quitte a considerer les canaux qui composent un Surrounding Sound comme 
autant de sources 3D « positionnables », pourquoi ne pas veritablement les positionner 
dans I’environnement virtuel et les trailer de la meme fagon que les DirectiveSound ? 
En effet, il est tout a fait envisageable de placer autant de haut-parleurs virtuels qu’il 
est necessaire dans la scene, et leur assigner a chacun un canal du Surrounding Sound. 
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Comme il est illustre sur la figure 14.6, c’est d’ailleurs une methode ties naturelle pour 
simuler reloignement d’un groupe de sources ponctuelles dont la position relative est 
«figee » par I’encodage multicanal, sans avoir besoin de definir d’autres transformations 
que le ctiangement de position du point d’ecoute. 



Systeme de 
diffiision multicanal 


SunvundingSound 


Fig. 14.6 Mise en oeuvre des SurroundingSound par I’utilisation de tiaut-parleurs 
virtuels positionnes en cercle dans la scene. 


Tandis que la configuration des haut-parleurs virtuels est imposee par la configura¬ 
tion employee lors de la creation des SurroundingSound, le rayon R du cercle sur lesquels 
ils sont places est laisse au choix de I’utilisateur. Par defaut, I’application ZARA, attri- 
bue comme valeur de R, la plus petite dimension de I’objet 3D^ a laquelle est associee le 
SurroundingSound (Figure 14.7.a). Puisque la taille du cercle conditionne, entre autres, 
la vitesse d’ouverture (resp. de fermeture) du champ sonore, nous avons definit un co¬ 
efficient multiplicateur du rayon R comme parametre de controle. 




Fig. 14.7 - Les variables de la mise en oeuvre des SurroundingSound : (a) le rayon du 
cercle de haut-parleurs virtuels et (b) I’application individuelle ou globale de I’attenua- 
tion du champ sonore avec la distance. 


^Seules les dimensions dans le plan horizontal 


interessent dans un premier temps 
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Enfin, on pent aussi laisser le choix d’une attenuation globale du champ sonore 
on d’une attenuation individuelle de chaque haut-parleur (Figure 14.7.b), ce qui pent 
encore modifier le « comportement » d’un Surrounding Sound a I’approche/eloignement 
du point d’ecoute. 

14.1.3 Echantillonnage d’une scene sonore a I’aide de Surrounding- 
Sound 

An lancement de 1’application une fenetre de dialogue permet de choisir le nombre 
de canaux du bus de sortie^. Par souci de simplicite, nous n’offrons pas la possibilite 
de definir un nombre arbitraire de canaux, mais imposons les configurations standards 
definies par FMOD Ex^ : monophonic, stereophonic, quadriphonie, 5.1 et 7.1 (Figure 
14.8). 



Fig. 14.8 - Fenetre de dialogue permettant de choisir, an lancement du programme, la 
configuration de haut-parleurs [i.e. le nombre de canaux du bus de sortie) ainsi que les 
drivers de lecture et d’enregistrement. 


Or, il est possible d’enregistrer avec ZARA, la sortie du graphe audio du systeme 
FMOD [i.e. le signal multicanal regu par la carte son), dont le nombre de canaux a 
ete defini a I’initialisation. L’interface propose alors deux modes d’enregistrement. Le 
premier est un enregistrement libre (bouton « Start Rec », onglet « Record ») sur une 
duree indeterminee on fixee a I’avance par lutilisateur (Figure 14.9). Ce mode a ete 
introduit initialement pour etre en mesure d’enregistrer des parcours sonores dans la 
scene a des fins de comparaisons {e.g. la translation entre deux SurroundingSound, la 
rotation du point d’ecoute, etc.). Tons les sons sont done potentiellement audibles, dans 

®I1 determine aussi le nombre de canaux des bus dans I’ensemble du graphe audio du systeme FMOD 
^ FMOD Ex definit une certain nombre de configurations de haut-parleurs tres simples a mettre en 
oeuvre et correspondant aux formats multicanal classiques supportes par les cartes son grand public. La 
definition d’un nombre arbitraire de haut-parleurs sur des cartes sons professionnelles disposant d’un 
grand nombre d’entrees/sorties requiert I’utilisation des drivers ASIO et necessite quelques developpe- 
ments supplementaires pour etre integree a I’application. 
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les limites de I’attenuation avec la distance et des filtrages appliques (voir Annexe C, 
les fonctionnalites « secondaires » implementees). 


Lancement de renregistrement libre 


ec.Stf. I 




Duration (ms) | 12000 





Duree de I’enregistrement Temps restant avant la fm de 
renregistrement 


Fig. 14.9 - Fonction d’enregistrement libre de I’application ZARA. Si I’utilisateur ne 
saisit pas une duree (en ms) avant de lancer I’enregistrement, celui-ci continue jusqu’a 
ce qu’il appuie de nouveau sur le bouton « Rec Start » (devenu « Rec Stop » apres le 
lancement de I’enregistrement). 


L’enregistrement multicanal realise ici pent aussi etre utilise pour la creation de Sur¬ 
rounding Sound a partir d’une scene composee exclusivement de DirectiveSound (voir en 
Annexe D, les contraintes relatives aux fictiiers audio dans I’application ZARA.), dans 
le but de realiser une reduction du niveau de detail {i.e. reduction du nombre de flux 
audio Ins simultanement). Nous avons ainsi deflnit une fonction permettant exporter 
zone par zone le contenu audio de la scene. En d’autres termes, le systeme creera au- 
tant de flchiers audio multicanal qu’il y a de zones contenant des DirectiveSound dans 
I’organisation spatiale. Pour cela, le systeme realise autant de fois qu’il est necessaire, 
les actions suivantes : 

- le point d’ecoute est place an centre d’une zone et oriente « vers I’avant » {i.e. dans 
le sens des « 2 : croissants », dans le systeme de coordonnees {x,y,z} par defaut de 
FMOD Ex), 

- la lecture des sons des autres zones est interrompue, 

- un enregistrement est effectue sur une duree correspondant a la duree d’une 
« boucle », calculee a partir du flchier audio du premier DirectiveSound de la 
zone (voir en Annexe D, les contraintes relatives a la creation des sons pour I’ap- 
plication ZARA.) 

L’exportation produit alors une nouvelle banque de sons composee uniquement de 
flchiers audio multicanal, ainsi qu’un nouveau flchier de description de scene (d’exten- 
sion « .zar »), contenant toutes les informations necessaires an chargement de la scene : 
la configuration de haut-parleurs utilisee lors de I’enregistrement {i.e. la liste de leur 
azimut), le nom du flchier VRML decrivant la scene originale, le chemin de ce flchier. 
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ainsi que le chemin des fichiers audio multicanal nouvellement crees (voir en Annexe D, 
les contraintes relatives aux fichiers audio dans I’application ZARA.). 


L’interface ne permet pas seulement de charger un fichier VRML donnant I’organi- 
sation spatiale et thematique des objets, comme nous I’avons decrit section 14 . 1 . 1 . H 
est aussi possible de charger uniquement un ensemble de fichiers audio monophoniques 
pour creer une scene aleatoire^ (bouton « Creation »). Or, ne pouvant s’appuyer sur 
I’existence de zones prealablement definies, il est neanmoins possible de partitionner 
I’espace de fagon reguliere en M x N zones de meme dimension (Figure 14.10.a). La 
scene pent alors etre exportee de la meme fagon que precedemment, a la difference pres 
que le systeme doit, en plus du fichier « .zar », creer une description geometrique de la 
scene indiquant la position des objets, les fichiers audio associes et I’organisation spa¬ 
tiale, meme si elle est extremement rudimentaire. Pour cela, le format Wavefront Object 
(*.obj) est amplement suffisant®. 



Fig. 14.10 - Creation d’une scene sonore sans organisation spatiale prealable. (a) Place¬ 
ment aleatoire des DirectiveSound sur un plan aux dimensions fixes et echantillonnage 
3x3. (b) Chargement du fichier « .zar », cree a I’exportation de la scene aleatoire, 
permettant une double representation de la meme scene : a I’aide de DirectiveSound 
et/ou de Surrounding Sound. 


Comme il est illustre Figure 14.10.b, un fichier « .zar » decrit ainsi une scene pos- 
sedant une double representation sonore; la premiere est composee uniquement de Di¬ 
rectiveSound et la seconde de Surrounding Sound. La seconde est bien une reduction du 
niveau de detail de la premiere puisqu’elle permet de reduire le nombre de flux audio 
(et le nombre de sources sonores), selon I’echantillonnage choisi et le nombre de canaux 

’^Dans I’etat actuel de I’interface, les deux modes de chargement sont exclusifs. En d’autres termes, 
I’interface ne permet pas de combiner les deux modes de creation, en plagant aleatoirement un ensemble 
de sources dans Tune des zones de I’organisation spatiale d’une scene VRML. 

®L’application supporte a la fois le format VRML et le format Wavefront Object 
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des Surroundingsound. 


14.2 Elements de specification de I’interface ZARA 

Comme on pent le constater sur le diagramme UML de la figure 14.11, I’element 
central de cette interface est la classe CControler (que nous appellerons simplement 
« controleur »). Elle agrege I’integralite des classes principales pour une raison tres 
simple : c’est elle qui est en charge, entre autres, de I’initialisation de I’application [e.g. 
chaine de rendu sonore et graphique) et des actions du systeme en reponse aux actions 
de I’utilisateur. Les classes CSound, CListener et CVisualAbstraction definiront, quand 
a elles, les objets sonores et graphiques de la scene, en faisant l’« interface » avec les API 
bas niveau pour le rendu proprement dit {FMOD Ex et OpenGL). Nous ne detaillerons 
les differentes methodes et attributs des ces classes. Nous nous contenterons ici de nous 
focaliser sur la description d’un unique cas d’usage : la creation de scene sonore a partir 
d’un fichier VRML. Mais avant cela nous allons presenter brievement les differentes 
actions qui sont realisees an lancement I’application ZARA. 



\ FMOD-Syst^ | CSound | 


I CListener | | CVisualAbstraction"] 


CPirectiveSoundl | T_SpatialArea |[~T_ThemaAreTl | CRecorded [CAlltoinat^ 


Fig. 14.11 - Diagramme UML simplifie des classes principales de I’interface. 


14.2.1 Presentation generate de I’application 

Dans la fonction WinMain (le point d’entree d’une application Windows), on cree 
en premier lieu la fenetre de dialogue a I’interieur de laquelle seront dessines les diffe- 
rents elements de I’interface graphique et qui contiendra la fenetre de rendu visuelle de 
la scene. Les evenements de I’interface proprement dite (boutons, sliders, etc.) seront 
directement recuperes par la fonction de callback MainWndProc, passee en argument de 
la fonction CreatcDialog (Figure 14.12). Les evenements du clavier, quant a eux, lui se¬ 
ront transmis indirectement grace a la boucle de recuperation de messages, a la fin de la 
fonction WinMain. II seront alors traites comme les evenements de I’interface graphique. 

On cree ensuite une instance de la classe CControleur. Le constructeur cree alors le 
systeme FMOD (affectation de I’attribut m_pFMODSystem), initialise les drivers de 
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lecture et d’enregistrement (selectionnes au demarrage de 1’application) et cree une ins¬ 
tance de la classe CVisualAbstraction (affectation de I’attribnt m _p Visual Abstraction). 
Une fois terminee la constrnction, on fait appel a la methode init dn controleur, qni se 
charge veritablement de I’initialisation de I’application (Fignre 14.12). 



Fig. 14.12 - Illnstration de la procednre d’initialisation de I’application ZARA et de la 
gestion des evenements de I’interface 


A I’initialisation, le controleur confignre le nombre de cananx dn bns andio (affec¬ 
tation de I’attribnt m_SpeakerMode) et la position snpposee des hant-parlenrs ponr 
adapter en conseqnence la loi de panoramisation par paires. Ensnite, il constrnit nn ob- 
jet CListener (affectation de I’attribnt m_pListener), ponr la gestion dn point d’econte, 
et nn objet CRecorder (affectation de I’attribnt m_pRecorder), ponr I’enregistrement 
libre on I’exportation des SurroundingSound (Fignre 14.12). Enfin, il lance le thread de 
rendn sonore et graphiqne, implemente par la methode loopUpdateThread. Les princi- 
pales actions effectnees sont les snivantes : 

- Mise a jonr dn systeme FMOD {i.e. « rafraichissement » interne des attribnts de 
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positions et d’orientation du point d’ecoute (« Listener ») et des sons « position- 
nables » {i.e. DirectiveSound) definis par I’API, 

- Mise a jonr de la position des SurroundingSound, relativement a la position et a 
I’orientation dn point d’ecoute (selon la techniqne presentee section 14 - 11 - 2 ). 

- Rendn de la scene OpenGL (methode renderScene de la classe C Visual Abstrac¬ 
tion). 

La fonction MainWndProc redirige la plnpart des evenements vers le « gestionnaire 
d’evenements » dn controlenr (methode eventManager) an moyen d’identificatenrs mne- 
moniqnes (variables ennmerees) exprimant pins clairement Taction qne doit realiser le 
systeme. Par exemple, lorsqne Tntilisatenr appnie snr la tonche « fleche ganche », la 
variable kVisualLeft est passee en argnment de la methode eventManager de la classe 
CControler, ponr qn’elle appliqne nne translation de la camera vers la ganche. L’applica- 
tion des parametres modifiables an moyen de sliders on de number boxes {e.g. la distance 
minimnm ponr Tattennation avec la distance) snit exactement le meme fonctionnement, 
mise a part I’ntilisation d’nne methode propre a ce cas d’ntilisation (methode setPara- 
meter). Senles les actions de chargement impliqnent, ponr chacnne d’elles, I’appel d’nne 
methode particnliere : load(fileName,...) ponr le chargement d’nne description de scenes 
(fichier « .wrl », « .obj »on « .zar ») et createScenefpath,...) ponr la creation de scenes 
aleatoires. 

14.2.2 Chargement d’une scene et creation du graphs audio 

En fonction de Textension dn nom de fichier qni Ini est passe en argnment, la me¬ 
thode load appelle I’nne des trois methodes, loadVRMLFile, loadObjPile on loadZarPile. 
Malgre lenrs specificites, ces fonctions ont tontes les trois en commnn de prodnire nne 
organisation spatiale a partir de la description de scene chargee. 



Fig. 14.13 - Arborescence des objets 3D de la scene (instance de la classe 
T_ VRMLNode) extraite de la scene decrite par le fichier VRML. 


Dans le cas d’nn fichier VRML, le graphe de scene est parconrn de fagon recnrsive 
(« depth first traversal ») ponr en extraire les informations relatives anx objets 3D, 
notamment lenr position, lenr nom et celni de lenr fichier de textnre®. Si le graphe de 

®Le fichier VRML est lu une premiere fois pour creer I’arborescence des objets 3D de la scene. On 
utilise alors une instance de la classe T_ VRMLNode pour le parcours recursif. 



Elements de specification de I’interface ZARA 


251 


scene est celui illustre Figure 14.13, voici quelles sent les etapes qui conduisent a la 
creation du graphe audio a partir de I’organisation spatiale : 

- (1) Tout d’abord, on descend en profondeur dans I’arborescence des objets 3D, 
jusqu’a rencontrer une zone n’ayant pas de zone fille (objet « zone_l »). On 
cree alors une instance de la classe T_ SpatialArea, premier element de I’orga¬ 
nisation spatiale. Ensuite, par I’intermediaire de I’API FMOD Ex, on cree un 
« channel group » (affectation de I’attribut m_pChannelGroup) ainsi qu’une ins¬ 
tance de la classe DspMultiChannelPaner, que nous avons implementee pour le 
positionnement des SurroundingSound. Si I’objet 3D de la zone possede une tex¬ 
ture, on recupere le nom du fichier audio multicanal a charger et on cree une 
instance de la classe CSurrounding Sound (ajout d’un nouvel element an vecteur 
m_ up Surrounding S ound). Comme il est indique Figure 14.14, le constructeur de 
la classe joue alors le fichier audio sur un « channel^^ » (mode FMOD_2D, afin 
que ne soient pas appliques les effets de spatialisation de I’API), qui est branche 
an DSP DspMultiChannelPaner, lui meme branche an « channel group ». 

- (2) Tons les objets fils de cette zone correspondent a des DirectiveSound {i.e. le 
nom des objets est de format « s_obj_%i»). Pour chacun d’eux, on recupere le 
nom du fichier audio monophonique a charger et on cree une nouvelle instance de 
la classe CDirectives ound (elles sont ajoutees an vecteur m_vpDirectiveSound). 
Le constructeur joue alors le fichier audio sur un « channel » (mode FMOD_ 3D, 
qui est branche an « channel group » precedent (Figure 14.14). 


T_SpatialArea 
+ in_vpSubArea 



Fig. 14.14 - Creation du premier element de I’organisation spatiale {T_SpatialArea), 
auquel on associe un « channel group », sur lequel est branche les « channels » du 
SurroundingSound et des DirectiveSound de la zone correspondante. 


^°Les « channels » et « channel groups » peuvent etre consideres comme autant de pistes et de sous- 
groupes d’une table de mixage. 
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- (3) Les deux etapes precedentes sent repetees a chaque fois que I’on rencontre 
un nonvean noend dnrant le parcours reenrsif. Comme il est indiqne snr la Fignre 
14.15, lorsqne Ton remonte d’un nivean dans I’arborescence on ajonte an vectenr 
m_vpSubArea de la zone courante les pointeurs vers les organisations spatiales 
des zones filles {T_SpatialArea). De meme, on branctie les « channel groups » des 
zones filles an « channel gronp » de la zone courante. On cree alors progressivement 
I’organisation spatiale ainsi qne le graphe audio. Lorsque celui-ci est complet, 
on est en mesnre de brancher le DSP DspMultiChannelRecord se chargeant de 
I’enregistrement (grace a la classe CRecorder). 



Fig. 14.15 Constrnction recursive de I’organisation spatiale et du graphe audio. 





































Chapitre 15 

L’evaluation 


15.1 Objectifs et principe de I’experience 

L’objectif de cette experience est d’evaluer dans quelle mesure une scene statique 
{i.e. dont les sources ne sont pas en mouvement) implementee a I’aide d’un Surrounding- 
Sound represente une degradation de la qualite du rendu sonore, par rapport a la meme 
scene implementee a I’aide de plusieurs Directivesound. Les conditions dans lesquelles 
sont realisees une telle reduction du niveau de detail pen vent varier grandement, selon le 
nombre de canaux utilises pour I’enregistrement, la repartition des Directives ound dans 
I’espace on encore le nombre et les azimuts respectifs des haut-parleurs du systeme de 
diffusions. Ne pouvant, en une seule evaluation, prendre en compte I’ensemble de ces 
facteurs, nous nous limiterons a I’etude du cas d’usage suivant (Figure 15.1) : 

- Les Directives ound sont places a egale distance de la position d’enregistrement et 
equirepartis sur le cercle. 

- Aucune attenuation avec la distance n’est appliquee lors de I’enregistrement des 
DirectivesSounds on de la lecture du Surrounding Sound. Ainsi, lorsque le point 
d’ecoute est place an point d’enregistrement et oriente « vers I’avant » {i.e. dans 
le sens des « z croissants », dans le systeme de coordonnees {x^y,z} par defaut de 
FMOD Ex), les scenes sonores composees de Directives ound et celles n’utilisant 
qu’un unique Surrounding Sound seront rigoureusement identiques. 

- Le nombre de canaux du systeme de diffusion (representes par les spheres de 
couleur entourant le point d’ecoute) est identique an nombre de canaux du Sur¬ 
rounding Sound. L’enregistrement etant realise sur quatre canaux equirepartis {i.e. 
positionnes a -135 ° , -45 ° , 45 ° et 135 °), la configuration des haut-parleurs du sys¬ 
teme de diffusion sera done, elle aussi, quadriphonique. 
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Fig. 15.1 - Cas d’usage etudie pour la substitution des Directivesound par un unique 
Surroundingsound. Les sources sonores sont placees en cercle autour de la position 
d’enregistrement et equireparties. La configuration des SurroundingSound et du systeme 
de diffusion est quadriphonique. 


Pour revaluation nous mettrons en oeuvre une version modifiee du test MUSHRA 
(pour Multiple Stimulus with Hidden Reference and Anchors [ITU03]). Nous introdui- 
ront deux degradations supplementaires de la configuration spatiale, qui feront office 
d’ancres. Elies serviront ainsi de « reference basse » lors du jugement comparatif de 
qualite entre une scene composee de DirectiveSound et une scene composee d’un seul 
SurroundingSound. Void quelles sont ces scenes de reference : 

- Un « downmix » stereoptionique de la scene construite a I’aide de DirectiveSound, 
« upmixe » sur quatre canaux (Figure 15.2). Les effets de spatialisation sonore sont 
reduits a une « pseudo-lateralisation », puisque I’on supprime toute distinction 
entre les canaux frontaux et arrieres. 



downmix stereo 


upmix 4.0 


Fig. 15.2 - Premiere ancre : « downmix » stereoptionique de la scene construite a I’aide 
de DirectiveSound 

- Un « downmix » monoptionique de la scene construite a I’aide de DirectiveSound, 
« upmixe » sur quatre canaux (Figure 15.3). C’est la reference «la plus basse » {i.e. 
introduisant la plus grande degradation) puisque I’on supprime tout effet de spa¬ 
tialisation, mise a part I’activite des quatre tiaut-parleurs. 
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Fig. 15.3 - Deuxieme ancre : « downmix » monophonique de la scene construite a I’aide 
de DirectiveSound 


Les participants ne devront pas quantifier la degradation pergue entre les differentes 
scenes proposees a la comparaison {DirectiveSound^ Surrounding Sound, DirectiveSound 
stereo et DirectiveSound mono), comme il est d’usage pour un test MUSHRA, mais 
effectuer un classement avec ex aequo, de la plus faible a la plus grande distorsion par 
rapport a la scene de reference. 

15.2 Design experimental 

15.2.1 Facteurs experimentaux 

Le nombre de DirectiveSound Etant donne que les performances pour I’analyse de 
scene auditive dependent du nombre de sources sonores presentees de fagon concurrente, 
le premier facteur a prendre en compte est le nombre de DirectiveSound utilises pour 
constituer la scene originale. 



(a) (b) (c) 


Fig. 15.4 - Les trois types de configuration spatiale pour un meme type de scene sonore. 
(a) N6 : six sources positionnees positionnees regulierement tons les 60 ° (-150 ° , -90 ° , 
-30°, 30°, 90°et 150°). (b) N3 : trois sources positionnees regulierement tons les 
120 ° (-150 ° , -30 ° et 90 °). (c) N1 : une source positionnee a 90 ° . 
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Nous avons fixe la configuration spatiale des sources, dans le but d’introduire un 
peu de stabilite entre les differentes conditions experimentales. Comme il est indique 
sur la figure 15.4, pour chaque type de scene, nous en definissons trois versions, conte- 
nant respectivement une source (condition Nl), trois sources (condition N3) et six 
sources (condition N6). Ce sont toujours les memes fichiers audio qui seront associes 
aux memes objets. En d’autres termes, pour creer les scenes N3 et Nl^ nous avons retire 
respectivement trois et cinq sources a la scene N6. 


Le type de scene sonore Nous avons essaye de creer un panel de scenes sonores suf- 
fisamment representatif (voir Annexe D, la methode employee pour creation des fichiers 
audio associes aux DirectiveSound). Nous avons pour cela retenu les quatre categories 
suivantes : 

- Scenes d’exterieur : « Ville », « Banlieue », « Ferme », « ForetNuit » ou « Fore- 
t Ocean ». 

- Scenes d’interieur : « Salon », « Cuisine », « Atelier » ou « Bureau ». 

- Scenes musicales : « Birmane » ou « Electronica ». 

- Scenes de « cocktail party » {Babble noise) : corpus de double-parole (« Babble ») 
et inversions temporelles des sons du corpus^ (« Babble Inv. »). 

Afin de reduire le nombre de comparaison que doivent realiser les participants, nous 
procederons a une evaluation preliminaire afin de n’en retenir que six parmi les treize 
presentees. Quatre d’entre elles {SI, S2, S3 et S4) seront utilisees pour le test propre- 
ment dit, les deux autres pour la phase d’entrainement. 


Les transformations La rotation et la distorsion de perspective ont ete introduites 
avant tout, afin de rendre plus « credible » le comportement des Surrounding Sound en 
function des mouvements de rotation et de translation du point d’ecoute. Les methodes 
mises en oeuvre pour les rendre « positionnables », a I’instar des DirectiveSound, sont 
particulierement utiles lorsque I’auditeur passe d’un champ sonore a un autre, pour 
simuler I’eloignement ou le rapprochement d’un groupe de sources. Or, etant donne les 
mauvaises performances du systeme auditif pour la localisation de sources en mouve- 
ment, il est tres probable qu’un auditeur ait quelques difficultes a comparer des en- 
registrements dans lesquels le point d’ecoute se deplace (surtout s’il n’en n’a pas le 
controle). Nous avons done selectionne differentes positions et orientions, correspon- 
dant a des ecarts plus ou moins grands par rapport a la position et a I’orientation du 
point d’ecoute lors de I’enregistrement. Les trois positions et les trois orientations sui¬ 
vantes ont ete retenues, chacune mettant plus ou moins en valeur les differences entre 
les scenes DirectiveSound et Surrounding Sound : 


^Nous avons introduit cette inversion temporelle afin d’etre en mesure d’eliminer I’infiuence du 
contenu semantique des sons de paroles, tout en conservant leurs proprietes spectrales (timbre). 
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- Pour les translations, nous prenons comme reference la distance d (Figure 15.5.c), 
pour laquelle le point d’ecoute se trouve « dans I’axe » des tiaut-parleurs virtuels 
R et Rs. Les deux autres translations (Figure 15.5.a et 15.5.b) correspondent 
simplement a des positions intermediaires. Ces transformations constituent trois 
conditions experiment ales que nous nommerons Tl, T2 et T3, du plus petit au 
plus grand ecart par rapport a la position d’enregistrement. 
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A 







i ^ 


J 

• 

- 

1 !5 ^ ' 

1 

5 c 

- 


(a) (b) (c) 


Fig. 15.5 - Les conditions Tl (a), T2 (b) et T3 (c), du plus petit au plus grand ecart 
par rapport a la position d’enregistrement. 

- Pour les rotations, nous prenons cette fois-ci, comme reference, I’orientation pour 
laquelle le haut-parleur virtuel R est « au centre » des haut-parleurs L et iZ du 
systeme de diffusion. Comme precedemment, les deux autres rotations (Figure 
15.6.a et 15.6.b) correspondent simplement a des orientations intermediaires. Ces 
transformations constituent trois conditions experimentales que nous nommerons 
Rl, R2 et R3, du plus petit au plus grand ecart par rapport a I’orientation d’en¬ 
registrement. 



Fig. 15.6 - Les conditions R1 (a), R2 (b) et R3 (c), du plus petit au plus grand ecart 
par rapport a I’orientation d’enregistrement. 


Niveau d’expertise Cette evaluation repose en grande partie sur les capacites de 
I’auditeur a discerner, entre les scenes sonores qui lui sont presentees, des differences 
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parfois subtiles de configuration spatiale, de timbre ou de niveau. Nous avons done de¬ 
cide d’ajouter, au groupe de sujets non-experts recrutes pour I’experience, un groupe 
d’expert en audionumerique (chercheurs, doctorants et post-doctorants de France Tele¬ 
com travaillant sur la spatialisation sonore ou le codage audio). 

15.2.2 Plan de test et description du dispositif 

Plan de test Niveau d’expertise mis a part, nous disposons de 72 situations d’ecoute 
differentes (ou conditions experimentales) issues du croisement des modalites de nos 
facteurs experimentaux [i.e. plan factoriel complet a trois niveaux) : 

- trois modalites pour le nombre de Directivesound dans la scene {Nl, N3 et N6)^ 

- quatre modalites pour le type de scene sonore {SI, S2, S3 etS4), 

- et six modalites pour les transformations du point d’ecoute {Tl, T2, T3, Rl, R2 
et R3). 

Chaque participant realisera trois sessions successives de 24 comparaisons (Nombre 
de scenes x Nombre de transformations), correspondant ctiacune a un nombre different 
de Directives ound (condition Nl, N3 et N6). Or, les versions Nl, N3 et N6 d’une scene 
sonore utilisent exactement les memes fichiers audio. L’ordre de ces sessions aura done 
une certaine influence sur les capacites d’analyse de scene auditive. Ainsi, afin d’eli- 
miner les effets d’apprentissage lors des traitements statistiques, leur ordonnancement 
sera determine par un carre greco-latin d’ordre trois. Le nombre de sujets sera done un 
multiple de trois, ce qui nous permettra de creer trois groupes : 

- Un groupe dont I’ordre des sessions sera : Nl, N6, N3, 

- Un groupe dont I’ordre des sessions sera : N3, Nl, N6, 

- Un groupe dont I’ordre des sessions sera : N6, N3, Nl. 

L’ordre des autres conditions sera ctioisit aleatoirement comme il est de coutume 

pour le test MUSHRA normalise. Enfin, 18 sujets non-experts (3 x 6) ont tout d’abord 
ete recrutes pour cette experience, puis neuf experts (3 x 3), a titre de reference. 

Enfin, pour revaluation preliminaire les participants devront reporter le « nombre 
de positions spatiales pergues » dans les scenes qui leur seront proposees a I’ecoute. 
En d’autres termes, ils devront deviner le nombre de DireetiveSound que nous y avons 
places (voir Annexe F, les consignes donnees aux participants). Un premier groupe de 
dix personnes realisera la tache pour les versions N3 des treize scenes presentees prece- 
demment {i.e. contenant trois DireetiveSound) et un second groupe de dix personnes la 
realisera pour les versions N6 {i.e. contenant six DireetiveSound). En tout 47 personnes 
ont ete recrutees pour cette evaluation. 

Description du dispositif L’evaluation consiste a classer les quatre scenes offertes 
a la comparaison, de telle sorte que la scene la plus degradee (ou presentant la plus 
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grande distorsion par rapport a la scene de reference) regoive la note pins faible (les 
notes penvent etre 1, 2, 3 on 4). Parmi I’nne de ces qnatre scenes est cachee la reference 
{i.e. la scene DirectiveSound originale). Elle est done sensee recevoir la note la pins im- 
portante (4). Si le snjet ne pergoit pas de difference entre denx scenes, il est libre de leur 
attribner la meme note. Le classement est realise a I’aide de I’interface presentee Fignre 
15.7, developpee par les chercheurs de France Telecom (voir Annexe G, les consignes 
donnees anx participants). Les participants penvent ntiliser a loisir les elements de I’in¬ 
terface pour jouer en boucle (on non) tout on partie de la scene sonore. Les boutons en 
dessous de chaque curseur permettent de selectionner le stimulus que I’on vent ecouter : 
la reference {i.e. la scene DirectiveSound)^ la scene DirectiveSound {i.e. la reference ca- 
chee), la scene SurroundingSound (degradation evaluee), la scene DirectiveSound stereo 
(premiere ancre) on la scene DirectiveSound mono (seconde ancre). Les qnatre stimuli 
sont associes aleatoirement a I’un des qnatre sliders, a chaque nouvelle comparaison. 



• Curseur de 
report de la note 

• Bouton de 
selection du 
stimulus 

• Lecture/Arret 
de la scene 
selectionnee 

• Mise en boucle 
de la lecture 

• Debut et fm de 
la boucle 

• Comparaison 
suivante 


Fig. 15.7 - Interface utilisee pour le test MUSHRA et pour revaluation preliminaire. 


La meme interface sera utilisee pour revaluation preliminaire, cependant, plutot que 
de classer plusieurs scenes sonores, les sujets y reporteront le « nombre de positions spa- 
tiales pergues ». L’interface ne presentera done qu’un seul slider a chaque fois, pouvant 
prendre les valeurs 1 a 10. 

Pour la diffusion, nous utilisons qnatre enceintes de monitoring Genelec 1029A, pla- 
cees anx sommets d’un carre d’environ deux metres de cote. Comme il est illustre Figure 
15.8, un appuie-tete fixe an sol (fabrique par nos soins) a ete utilise pour que les partici¬ 
pants puissent placer leur tete an centre de ce carre^. Fn outre, il est recommande anx 
sujets de ne pas pivoter la tete durant I’experience, afin que la localisation des sources 
’^Nous avons controle au prealable que I’ajout de cet appui-tete ne modifiait pas de fagon significative 
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sonores soit statique. Cependant, rien ne les empechait d’effectuer des mouvements de 
faibles amplitudes. 



Fig. 15.8 Appui-tete utilise pour s’assurer que la tete des participants est bien posi- 
tionnee au centre du carre de tiaut-parleurs. 


15.2.3 La selection des scenes sonores 

Les scenes d’interieur, sont essentiellement constituees d’« actions ». Du moins, a 
une position spatiale {i.e. un Directivesound) correspond un unique evenement sonore. 
Par exemple, pour la version N6 du « salon », on distinguera : 

- Une personne passant I’aspirateur, 

- Un enfant qui parle, 

- Le telephone qui sonne et le message laisse sur le repondeur 

- La manipulation du tuner de la radio et la voix du presentateur d’une emission 

- Le feu qui crepite dans la cheminee 

Un homme qui tousse et ecrit sur une feuille de papier. 

En revanche, les scenes d’exterieur sont generalement constituees d’ambiances (mo- 
nophoniques), done de sons deja riches en evenements (mise a part la « Ferme », qui 
evoque une scene d’exterieur mais presente les caracteristiques d’une scene d’interieur). 
Par exemple, pour la « ville » on utilise, entre autres, I’enregistrement d’un pare et 
celui du bruit de fond de la circulation automobile. A une position spatiale correspond 
done plusieurs evenements sonores, ce qui pourrait rendre plus difficile I’analyse (par 
I’auditeur) des eventuelles distorsions spatiales entre stimuli. 

Pour les scenes musicales, comme pour les scenes d’interieur, a une position spatiale 
correspond un unique Directives ound. Cependant ils utilisent des sons musicaux aux 
timbres parfois similaires, harmonises et/ou en rythmes. De plus, la plupart d’entre eux 

le spectre des sons. Pour cela nous avons compare les reponses en frequence du mannequin KEMAR 
(oreilles droite et gauche), avec et sans appui-tete. 
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ont ete crees par synthese et n’ont aucun referent dans la realite {i.e les sonrces qni 
les ont prodnites). Or, bien qne Ton distingne aisement dans ces scenes, les « sonrces 
rythmiqnes » des « sonrces melodiqnes », il pent se reveler difficile de discriminer^ les 
evenements qni composent les mixtnres sonores formees par ces deux groupes. En effet, 
comme I’ont montre les differentes experiences de Deutsch, dont la famense illusion des 
intervalles (« scale illusion ») [Deu75], il est possible dans certaines conditions qne le 
systeme auditif realise des groupements perceptifs par proximite frequentielle (fondes 
sur la hauteur du son) an detriment des groupements par proximite spatiale (fondes sur 
I’azimut de la source). 

Ainsi, pour des raisons assez diverses, les performances d’analyse de scene auditive 
peuvent potentiellement varier d’une scene a une autre. L’evaluation preliminaire nous a 
alors permis d’operer une selection en consideration des performances d’analyse offertes 
par chacune d’elles. 


□ M^iane □ 25%-75% I Etendue Non-Atypique o Atypiques » Extremes 




Fig. 15.9 - Resultats de revaluation preliminaire : mediane du nombre de « positions 
spatiales pergues » pour les treize scenes sonores, dans leur version trois sources (a) et 
six sources (b). Les scenes entourees par un cadre bleu sont cedes qni ont ete retenues 
pour revaluation, celles entourees par un cadre vert sont celles qni ont ete retenues pour 
la phase d’entrainement. 


^selon r« habilete d’ecoute musicale » de I’individu. 
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Meme si revaluation de ces performances est relativement sommaire et ne peut don- 
ner lieu qu’a une analyse descriptive simple, elle a le merite de nous eviter un choix 
arbitraire et de nous renseigner quelque peu sur les limites du systeme quadriptionique 
pour une panoramisation par paires. En effet, on peut deja remarquer sur la figure 
15.9.b, que la mediane des notes pour les scenes nontenant six sources ne depasse pas 
4- On peut evoquer plusieurs raisons a cela : 

- Les quatre haut-parleurs etant visibles, ils ont pu influencer le jugement des parti¬ 
cipants qui, ne connaissant pas les techniques de panoramisation, ont estime qu’il 
ne pouvait y avoir plus de quatre sources dans la scene. En outre, comme nous 
I’avons mentionne section 2.2.2, la vue d’un element susceptible de produire un 
son peut etre responsable d’une delocalisation d’une source reelle invisible. Ce qui 
est vrai pour une source reelle I’est probablement encore plus pour une source vir- 
tuelle. Ainsi, les sources laterales ont tout a fait pu etre pergues dans la direction 
des haut-parleurs frontaux, bien que nous ayons pris soin de faire en sorte que la 
tete de I’auditeur soit placee au niveau du sweep spot. 

- Etant donne que I’ecart entre les haut-parleurs est tres important (90 °), le sys¬ 
teme souffre inevitablement de I’effet « trou du milieu », qui s’exprime par une 
image mediane extremement floue. De plus, les haut-parleurs etant situes sur 
le cone de confusion, les haut-parleurs peuvent exercer une veritable « attrac¬ 
tion » des sources virtuelles laterales. 

- Enfin, a cela s’ajoute le fait que le nombre de sources sonores est peut-etre ici suf- 
fisamment important pour alterer les capacites d’attention selective de I’auditeur 
ou, du moins, nuire a la localisation de chacune d’entre elles. 

Pour les scenes nontenant trois Directivesound, bien que la mediane des notes soit 
bien 3 pour la majorite des scenes (sept sur les treize scenes), on peut tout de meme 
constater des differences notables dans le jugement du nombre de « positions spatiales 
pergues ». Nous avons done tente de selectionner, dans chaque categorie (scenes d’ex- 
terieur, d’interieur, musicales et de « cocktail party »), la scene qui semblait offrir les 
meilleurs performances en termes d’analyse. D’apres les resultats presentes Figure 15.9.a 
et 15.9.b, voici les choix que nous effectues : 

- (Scenes de « cocktail party ») La scene « Babble » offre de meilleurs perfor¬ 
mances que la scene « Babble Inv. », puisque I’intervalle interquartile est d’eten- 
due nulle pour trois DirectiveSound et un nombre important de sujets a reussi 
a discerner cinq positions spatiales dans la version nontenant six DirectiveSound 
(I’intervalle interquartile s’etend de la note a 5). 

- (Scenes musicales) Nous avons retenu la scene « Electronica », puisque la me¬ 
diane des notes est bien de 3 pour trois DirectiveSound, alors qu’elle n’est que de 2 
pour la scene « Birmane ». En outre, certains sujets ont reussi a discerner cinq po¬ 
sitions spatiales dans la version nontenant six DirectiveSound de « Electronica », 
ce qui n’est pas le cas pour « Birmane ». 

- (Scenes d’interieur) « Atelier » et « Salon » offrent toutes deux les meilleurs 
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performances pour trois DirectiveSound. La mediane pour ces deux scenes est 
bien de 3 et I’intervalle interquartile est d’etendue nulle (les medianes de « Bu¬ 
reau » et « Cuisine » ne sont que de ^). Elies se distinguent cependant pour les 
scenes nontenant six DirectiveSound puisque, malgre une mediane identique de 
4, I’intervalle de la scene « Atelier » s’etend jusqu’a 3, pour une etendue Non- 
atypique relativement importante (de 2 a 5). Nous avons done retenu la scene 
« Salon » puisqu’elle beneficie d’un plus grand consensus entre participants. 

- (Scenes d’exterieur) Les scenes « Ville » et « Banlieue » sont cedes qui offrent 
les plus mauvaises performances pour trois DirectiveSound, puisque la mediane 
des notes est de 2. Ce resultat etait attendu puisqu’elles sont cedes qui utilisent 
le plus de DirectiveSound deja riches en evenements sonores {i.e. ambiances mo- 
nophoniques). Pour les scenes « Ferme », « Foret Nuit » et « Foret Ocean », les 
participants ont bien reussi a determiner le bon nombre de positions spatiales. De 
ces trois scenes, meme si « Foret Nuit » semble offrir les meideures performances 
pour trois DirectiveSound, e’est ede qui offre les pires pour six DirectiveSound. 
Nous avons done retenu la « Ferme », puisque e’est ede qui offre les meideures 
performances dans ce dernier cas (six DirectiveSound). En effet, d’une part, la 
mediane des notes est de 4 st, d’autre part, e’est la seule scene, parmi toutes 
cedes qui ont ete presentees, pour laquede certains sujets ont reussi a discerner 
six positions spatiales. 

Les scenes qui ont ete choisies pour devaluation sont done « Babble », « Electronica », 
« Salon » et « Ferme ». Pour la phase d’entrainement, nous avons choisi de fagon un 
peu arbitraire les scenes « Birmane » et « Vide ». 

15.3 Hypotheses et resultats 

15.3.1 Hypotheses 

15.3.1.1 Preambule 

Nous ne nous attendons pas a observer d’effet du type de scene sonore {SI, S2, S3 
et S4) sur les resultats. Nous avons avant tout introduit ce facteur experimental afin 
de diversifier au maximum les stimuli presentes a I’auditeur et minimiser I’induence du 
corpus sonore sur devaluation. Le niveau d’expertise est un facteur qui a lui aussi un 
statut un peu particuder. Nous supposons que les evaluations effectuees par les deux 
groupes suivront globalement les memes tendances. En revanche, il est possible que les 
experts nous offrent un jugement plus analytique et nous permettent de trancher la ou 
les differences ne sont pas assez nettes chez les non-experts . II est done important de 
pouvoir combiner les deux points de vue pour conclure de fagon definitive sur la « de¬ 
gradation », ou plutot la « distorsion », induite par la substitution des DirectiveSound 
par un SurroundingSound. 

Nous supposons que deffet du nombre de sources {Nl, N3 et N6), quant a lui, sera 
relativement dagrant et que ce facteur aura, au contraire des precedents, une grande 
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influence sur le jugement comparatif. En effet, nous avons eu I’occasion de mention- 
ner a plusieurs reprises que 1’augmentation du nombre de sources sonores concurrentes 
pouvait degrader les performances d’analyse de scene auditive des participants . Comme 
I’ont montre les resultats de revaluation preliminaire, I’habilete de I’auditeur est d’au- 
tant plus reduite que le systeme de reproduction quadriphonique n’offre qu’une image 
spatiale de pietre qualite (objective). Typiquement, il semblerait, pour la configuration 
spatiale retenue (six sources positionnees respectivement a -150 ° , -90 ° , -30 ° , 30 ° , 
90 ° et 150 °), qu’un individu ne puisse aisement distinguer plus de quatre sources a des 
positions spatiales differentes. Meme si cela semble du, en partie, a I’incapacite du sys¬ 
teme quadriphonique a reproduire des sources laterales, il n’en reste pas moins qu’un au- 
diteur pent ne pas etre en mesure de discerner les distorsions spatiales {e.g. modification 
de I’azimut ou « elargissement » d’une ou de plusieurs sources) introduites par certaines 
transformations. Enfin, en plus d’estomper les differences entre les stimuli proposes a la 
comparaison, 1’augmentation du nombre de Directivesound dans la scene (equirepartis 
autour de I’anditeur) permet de mettre en valeur de fagon plus flagrante I’apport des 
Surroundings ound par rapport aux « downmix » stereophoniques « upmixes » sur quatre 
canaux . En effet, les inversions (arriere-avant ou avant-arriere^) etant vraisemblablement 
tres frequentes avec un tel dispositif, il est possible que I’on augmente de cette fagon 
la probabilite que I’auditeur pergoive bien des sources dans I’hemisphere avant et dans 
I’hemisphere arriere. 

Les transformations (translations et rotations) constituent le principal facteur ex¬ 
perimental de cette etude. Elies ont ete choisies de sorte a mettre plus ou moins a 
defaut les Surrounding Sound, en ecartant de fagon plus ou moins importante le point 
d’ecoute par rapport a la position d’enregistrement. Dans les sections qui suivent, nous 
allons done decrire les configurations spatiales respectives des Directives ound et du 
Surroundings ound auxquelles conduisent chacune d’elles et enoncer I’impact suppose 
sur le jugement comparatif des participants. Cependant avant d’aller plus loin, nous 
devons donner quelques precisions concernant les « downmix » stereophonique et mo- 
nophonique. 

Les scenes Stereophoniques sont creees en sommant respectivement les canaux cor- 
respondant aux paires de haut-parleurs {L, Ls} et {R, Rs}. En toute logique, on devrait 
appliquer un gain de -6 dB a chacun des haut-parleurs {i.e. reduire leur gain de moitie) 
pour conserver le niveau sonore de la scene originale. Du moins cela peut-il se verifier, 
dans une certaine mesure^, lorsqu’une seule source sonore est reproduce; bien qu’elle 
puisse etre delocalisee, le niveau sonore de la source reste identique a I’originale. Cepen¬ 
dant, lorsque plusieurs sources interferent entre elles, nous avons pu constater qu’une 
diminution du gain de 6 dB ne suffisait pas a garantir un niveau sonore identique a la 


■^A la difference d’une reproduction binaurale an casque, il semblerait que les inversions soient plutot 
arritoe-avant [i.e. I’auditeur pergoit une source a I’avant alors qu’elle est a I’arriere) qu’avant-arritoe, a 
cause de la presence des haut-parleurs frontaux dans le champ de vision. 

®si Ton fait abstraction des modifications de timbre et done de sonie en fonction de I’azimut de la 
source virtuelle 
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scene originale. Sans entrer dans les details d’nne explication dn ptienomene®, il nons 
a semble necessaire d’appliqner nn gain pins faible, particnlierement ponr la condition 
N6. Nons avons alors determine de fagon informelle (« a I’oreille ») nn gain -4 dB ponr 
les scenes Stereophoniques et nn gain de -9 dB (an lieu -12 dB) pour les scenes Mo- 
nophoniques. Or, nous avons commis I’erreur, toute relative, de modifier les gains pour 
les trois conditions^ Nl, N2 et N6. Bien que cela puisse avoir nn certain impact sur 
revaluation, nous verrons cependant que I’influence sur les resultats est relativement 
negligeable. 


15.3.1.2 EfTet des translations sur la jugement comparatif 


2 DirectiveSound SurroundingSound 

0 ° Ti T: Ti 



(a) (b) (c) (d) 


Fig. 15.10 - Condition Nl : Modification de la configuration spatiale originale des 
DirectiveSound et du SurroundingSound (a), suite aux translations TI (b), T2 (c) et 
T3 (d). 


Pour la condition Nl , seul le DirectiveSound D^ est present. Comme il est illustre 
sur les figures 15.10, les translations TI, T2 et T3 n’ont aucun effet sur I’azimut de ce 
DirectiveSound. Or, D^ etant place a mi-chemin entre les haut-parleurs R et Rs (gains de 
0,5), les scenes DirectiveSound et Stereophonique sont identiques, abstraction faite de la 

difference de niveau sonore de 2 dB®. Ce n’est pas le cas pour la scene SurroundingSound, 
puisque cette source laterale est « encodee » par les haut-parleurs virtuels H 2 et H 4 
dont I’azimut est affecte par la translation. Pour T3, ces haut-parleurs virtuels etant 
places respectivement an milieu des paires {L,R} et {Ls,i?s}, le fichier audio est done 
diffuse sur les quatre haut-parleurs avec nn meme gain de 0,25. Dans ce cas, les scenes 
SurroundingSound et Monophonique sont identiques, abstraction faite de la difference 
de niveau sonore de 3 dB ^. Ainsi, quelle que soit la translation, la note de la scene 
SurroundingSound devrait etre inferieure on egale a celle de la scene Stereophonique ; 

®On pent toutefois supposer que le demasquage du a la separation spatiale tend a augmenter la 
sensation de « force sonore ». 

’^En fait, seuls les gains pour la condition N6 devaient etre modifies. Il nous avait semble que les 
gains de -6 dB et -12 dB etaient convenables pour la condition N3. 

®Nous avons applique un gain -4 dB et non de -6 dB. 

®Nous avons applique un gain -9 dB et non de -12 dB. 
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reste a savoir a partir de quelle « amplitude de translation » la distorsion deviendra 
veritablement andible {i.e. le Surrounding Sound regoit nne note strictement inferienre). 


• DirectiveSoiind 



(a) (b) 


SurroundingSotmd 

T2 Ti 



(C) (d) 


Fig. 15.11 - Condition NS : Modification de la configuration spatiale originate des 
DirectiveSound et dn Surrounding Sound (a), suite aux translations T1 (b), T2 (c) et 
T3 (d). 


Pour la condition N3, on ajonte les DirectiveSound Di et qni sont places 
respectivement a 15 ° « a droite » des hant-parlenrs L et Ls (Fignre 15.11.a). Avec la 
translation, Di et tendent a se rapproctier de la position laterale. Ponr T2 et T3, 
les hant-parlenrs R et Rs ne contribuent plus a la reproduction des denx sources so- 
nores. Bien que la scene Stereophonique ne permette pas de rendre compte dn fait qne 
I’nne est dans I’hemisphere arriere et I’antre dans I’hemisphere avant, elle a tont de 
meme en commnn avec la scene DirectiveSound, I’absence totale de contribution des 
hant-parlenrs droits, si ce n’est la reproduction de D^. A I’inverse, si la scene Sur- 
roundingSound preserve les « differences avant/arriere », elle sollicite tonjonrs qnelqne 
peu les hant-parlenrs R et Rs. En raison des inversions qni se prodnisent avec un tel 
systeme quadriphoniqne, il est possible que le respect de I’unilateralite soit un critere 
pins important ponr I’auditeur que le respect des « differences avant/arriere ». A cela 
s’ajoute le fait que la reproduction de la source D^ est tres nettement degradee par 
les Surrounding Sound. II est done fortement probable, pour les translations T2 et T3, 
qne la scene Stereophonique regoive nne meilleure note que la scene Surrounding Sound. 
En revanche, etant donne que la translation T1 ne modifie que peu la configuration 
spatiale des sources sonores, il est possible dans ce cas que le respect des « differences 
avant/arriere » soit le factenr le pins discriminant. Bien que la scene SurroundingSound 
soit toujours pergue comme une degradation de la scene DirectiveSound, elle pourrait 
done recevoir une meillenre note que la scene Stereophonique. 
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Fig. 15.12 - Condition N 6 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux translations T1 (b), T2 (c) et 
T3 (d). 


Pour la condition N 6 , on ajoute les DirectiveSound D 2 , D 4 et Dq (Figure 15.12). 
Comme pour D^, la translation n’a aucun effet sur Tazimut du DirectiveSound Dq. En 
revanche, cette fois-ci, elle n’a pas non plus d’effet sur Tazimut de la source « enco- 
dee » par les deux haut-parleurs virtuels Hi et H 4 . Elle est done reproduite a I’iden- 
tique, que la scene soit DirectiveSound, SurroundingSound on Stereophonique ; pour 
cette source laterale, seule la scene Monophonique est une degradation de la scene origi¬ 
nale. Les DirectiveSound D 2 et D 4 , quant a eux, restent respectivement dans le secteur 
frontal et arriere et sollicitent les haut-parleurs droits et gauches quelle que soit la trans¬ 
lation. Les scenes SurroundingSound necessitant le plus souvent trois haut-parleurs pour 
le rendu d’une source sonore, elles sont done moins penalisees par rapport a la stereo¬ 
phonic « upmixee » pour la reproduction de D 2 et D 4 qu’elle ne I’etait pour Di et 
D 5 . Cependant, a mesure que le point d’ecoute s’ecarte de la position d’enregistrement, 
la largeur apparente des sources « encodees » par les paires de haut-parleurs virtuels 
{Hi,H 2 } et { 773 , 774 } tend probablement a augmenter et leur localisation a devenir 
plus floue, puisque trois haut-parleurs contribuent de fagon inegale a leur reproduction. 
Ainsi, meme si nous avons pen de certitudes sur ce point, il est possible que cela consti- 
tue un facteur supplementaire de degradation par rapport a la scene DirectiveSound de 
reference, voire meme par rapport a la scene Stereophonique. Comme precedemment, 
on pent se demander si le non-respect des « differences avant/arriere » est un critere 
plus important pour I’auditeur que la largeur et le flou de localisation de certaines 
sources sonores. En outre, pour la condition N 6 , meme si une scene SurroundingSound 
cumule les defauts que nous avons mis en evidence jusqu’ici, ceux-ci pourraient etre 
estompes puisque les performances d’analyse de scene sont probablement degradees. 
En conclusion, on pent supposer que la distorsion pergue sera plus faible pour une 
scene SurroundingSound que pour une scene Stereophonique lorsque la translation est 
de faible amplitude . Cependant, etant donne le nombre de facteurs devant etre pris en 
compte ici, il est encore plus difficile de determiner a partir de quelle « amplitude de 
translation » cette distorsion sera jugee plus importante que celle induite par une scene 
Stereophonique, si taut est que ce soit le cas. 
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15.3.1.3 Effet des rotations sur la jugement comparatif 


• DirectiveSound 


Surt oundingSound 


Ls 


L 



(a) 


(b) 


(c) 


(d) 


Fig. 15.13 - Condition N1 : Modification de la confignration spatiale originale des 
DirectiveSound et dn Surrounding Sound (a), snite anx rotations R1 (b), R2 (c) et R3 


(d). 


Pour la condition N1, les rotations Rl, R2 et R3 placent respectivement le 
DirectiveSound D^ a 75 ° , 60 ° et 45 ° . La distorsion indnite par la scene Stereophonique 
croit done an fnr et a mesnre de 1’augmentation de Tangle de rotation puisque, dans 
ce cas, la source est toujours pergue a mi-chemin entre les haut-parleurs R et Rs {i.e. 
azimut 90 °). Quant a la scene Surrounding Sound, la distorsion croit elle aussi a mesnre 
que I’angle de rotation augmente. Cependant celle-ci n’est pas de meme nature. En 
effet, comme nous I’avons deja remarque pour la translation, la largeur apparente de la 
source sonore « encodee » par les haut-parleurs virtuels H 2 et tend probablement a 
augmenter et sa localisation a devenir plus floue. Par exemple, comme I’illustre la Figure 
15.13, il est possible, pour la rotation R3, que la source sonore soit localisee an bon 
azimut (45 °), puisque le gain du haut-parleurs R est deux fois plus important (0,5) que 
ceux des haut-parleurs L et Rs (0,25). Cependant, etant donne les problemes d’inversions 
arriere-avant mentionnes precedemment, il est tout aussi probable que la contribution 
du haut-parleur L ait plus de « poids » que le haut-parleur Rs, conduisant a une image 
decalee vers I’avant-gauche, par rapport a celle reproduite a I’aide du DirectiveSound. 
Dans ces conditions la scene Stereophonique pourrait etre jugee plus fidele que la scene 
Surroundingsound, puisqu’elle conserve an moins I’unilateralite de la scene originale. En 
outre, etant donne I’instabilite des images laterales sur un systeme quadriphonique, il 
est possible que I’auditeur ne soit pas en mesnre de percevoir veritablement la distorsion 
angulaire introduite par la scene Stereophonique. En revanche, il est fort a parier que 
celle introduite par la scene Surrounding Sound le soit. Cette derniere devrait done 
recevoir une note plus faible, du moins pour les rotations de plus grande ampleur. 
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Fig. 15.14 - Condition N3 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux rotations R1 (b), R2 (c) et R3 
(d). 


Pour la condition N3, les rotations Rl, R2 et R3 placent respectivement le Direc¬ 
tiveSound Di a -45 ° , -60 ° et -75 ° (Figure 15.14). Les tiaut-parleurs virtuels Hi et H 2 , 
en charge de I’encodage de cette source sonore sont, quant a eux, deplaces respective¬ 
ment vers le centre des paires de haut-parleurs {R,L} et {L,Ls}. Or, Di etant positionne 
initialement a I’azimut -30 ° , la contribution de Hi (gain de cos^^ = 0, 933) est beau- 
coup plus importante que celle de H 2 (gain de sin^^ = 0,067) pour la reproduction 
de cette source sonore. L’effet d’« elargissement » de la source du a la contribution 
des trois haut-parleurs est done plus faible que pour la reproduction de D 3 . Cepen- 
dant, la distorsion induite par la scene Stereophonique decroit, cette fois-ci, au fur et a 
mesure de 1 ’augmentation de I’angle de rotation, puisque Di se rapproche du centre des 
haut-parleurs L et Ls. Ce n’est pas le cas pour le DirectiveSound D 5 qui reste plus ou 
moins au centre des haut-parleurs Rs et Ls. Contrairement a Di , cette source sonore est 
done probablement reproduite de fagon plus fidele pour une scene SurroundingSound 
que pour une scene Stereophonique. Neanmoins, si I’on considere I’ensemble des sources 
sonores, la degradation globale pourrait tout de meme etre consideree plus importante 
pour la scene SurroundingSound . Encore une fois, il n’est pas certain que le respect des 
« differences avant/arriere » soft le critere le plus important, du moins le plus fiable, 
lors du jugement comparatif. 

Pour la condition N6, la distorsion introduite par la reproduction du Directi¬ 
veSound Dq a I’aide d’un SurroundingSound est a priori identique a celle introduite 
par la reproduction du DirectiveSound D 3 decrite precedemment (Figure 15.15). Le fait 
qu’elle soit positionnee dans I’hemisphere arriere plutot que dans I’hemisphere avant 
ne reduit surement pas le flou de localisation potentiellement eprouve par I’auditeur. 
Comme nous I’avons deja suggere, pour une rotation de plus grande amplitude, ces deux 
sources semblent etre reproduites plus fidelement par une scene Stereophonique que par 
une scene SurroundingSound. De meme, la distorsion introduite par la reproduction des 
DirectiveSound D 2 et D 4 est a priori similaire a celle introduite respectivement par la 
reproduction des DirectiveSound D^ et Di. Ainsi, pour la reproduction de Di et D 4 , 
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• Directh'eSound 



(a) (b) 


SnrroimdingSound 



(c) (d) 


Fig. 15.15 - Condition N 6 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux rotations R1 (b), R2 (c) et R3 
(d). 


meme si le flou de localisation est moins important que pour D 3 et Dq la scene Surroun- 
dingSound, a la difference de la scene Stereophonique, faut tout de meme a respecter 
I’unilateralite de la scene originale. Finalement, il semblerait que seuls les DirectiveSound 
D 2 et puissent etre reproduits plus fidelement pour une scene Surrounding Sound 
que pour une scene Stereophonique. Neanmoins, on pent encore se demander si le non¬ 
respect des « differences avant/arriere » est un critere plus important pour I’auditeur 
que la largeur et le flou de localisation de certaines sources sonores. II est done toujours 
aussi difficile de predire dans quelle mesure une scene SurroundingSound sera consi- 
deree comme une degradation plus importante de la scene originale que ne pent I’etre 
une scene Stereophonique. En effet, nous avons deja eu I’occasion de mentionner que, 
pour la condition N 6 , meme si une scene SurroundingSound cumule les defauts mis en 
evidence pour les conditions N1 et N3, ceux-ci pourraient etre estompes, puisque les per¬ 
formances d’analyse de scene sont probablement degradees. Nous faisons tout de meme 
rhypothese d’une degradation globalement plus importante des SurroundingSound, en 
faveur des scenes Stereophoniques, a mesure que Tangle de rotation augmente. 
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15.3.1.4 Recapitulatif 

Nous avons mis en evidence les faiblesses des scenes SurroundingSound, pour les dif- 
ferentes rotations et translations que nous avons definies. Dans de nombreux cas, nous 
avons fait I’hypothese qu’elles conduiraient a une distorsion jugee plus importante que 
les scenes Stereophoniques. Void recapitules les avantages et les inconvenients des deux 
types de reproduction : 

- Reproduction d’une scene Directive Sound a I’aide d’un unique Sur¬ 
roundingSound 


Inconvenient 

La reproduction d’une source sonore sollicite systematique- 
ment trois tiaut-parleurs tors d’une rotation du point d’ecoute 
(sauf les rares cas on les azimuts des tiaut-parleurs virtuels 
coincident avec ceux des tiaut-parleurs du systeme de diffu¬ 
sion). Cela conduit a une augmentation de la largeur appa- 
rente de la source sonore (flou de localisation) et, dans cer¬ 
tains cas, an non-respect de runilateralite originate. Une telle 
distorsion atteint son paroxysme pour une translation dans 
la direction d’une source laterale {e.g. le Directivesound D 3 ), 
puisque I’ensemble des haut-parleurs participent a sa repro¬ 
duction. 

Avantage 

11 est possible, en theorie, de positionner une source a diffe- 
rents azimuts lateraux {i.e. entre les paires de tiaut-parleurs 
{L,Ls} on {R,Rs}) et de distinguer une source dans I’hemi- 
spliere avant d’une source dans I’hemisptiere arriere (respect 
des « differences avant /arriere »). 


- « Downmix » stereophonique d’une scene Directivesound « upmixe » sur 
quatre canaux 


Inconvenient 

11 est impossible de positionner une source a differents azi¬ 
muts lateraux {i.e. entre les paires de tiaut-parleurs {L,Ls} 
on {i?,i?s}) et de distinguer une source dans I’tiemisptiere 
avant d’une source dans I’tiemisptiere arriere (non-respect des 
« differences avant/arriere »). Abstraction faite des confusions 
arriere-avant (on avant-arriere), une source sera toujours loca- 
lisee a mi-cliemin entre les deux haut-parleurs (90 ° ou -90 °). 

Avantage 

Meme s’il est impossible de positionner une source a differents 
azimuts lateraux, une scene stereophonique respecte au moins 
runilateralite de la scene originate. 


Nous avons quelques certitudes sur le fait que la contribution de trois tiaut-parleurs 
pour le rendu d’une source sonore conduit inevitablement a une augmentation de la 
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largeur apparente d’une source (flou de localisation). En effet, Pulkki [Pul99] a deja mis 
a profit cet effet pour compenser la variation de largeur de source (ou spread) en fonction 
de I’azimut, inherente aux techniques de panoramisation par paires. Cela I’a amene a 
introduire la technique dite MDAP (pour Multiple-Direction Amplitude Panning), qui 
consiste a reproduire une source sonore au moyen de deux sources virtuelles, comme 
pour la substitution d’un Directivesound par un SurroundingSound (Figure 15.16.a). 



Fig. 15.16 - Technique dite MDAP (pour Multiple-Direction Amplitude Panning). Pour 
faire varier sa largeur apparente, une source sonore est reproduite au moyen de deux 
sources virtuelles, comme pour la substitution d’un Directives ound par un Surroun¬ 
dingSound. (a) Exemple de source d’azimut 30 ° et « d’angle de spread » de 30 ° . (b) 
Largeur de source pergue (moyenne sur cinq individus), en fonction de I’azimut (de 
- 10 ° a 60 °), pour un « angle de spread » de 0 ° , 20 ° et 30 ° (d’apres Pulkki [Pul99]). 
Les haut-parleurs sont positionnes respectivement a -90 ° , -30 ° , 30 ° et 90 ° . 


Ainsi, comme il est indique sur la Figure 15.16.b, Pulkki a montre qu’avec un ecart de 
30 ° entre les deux sources virtuelles, on pouvait obtenir une largeur approximativement 
constante d’environ 2,5 ° , pour une source positionnee entre les deux haut-parleurs fron- 
taux d’azimut respectif -30 ° et 30 ° . Cependant, on pent constater que la largeur pergue 
augmente lorsqu’elle est situee entre les deux haut-parleurs lateraux. Ici I’augmentation 
de la largeur de source est relativement faible, puisque I’ecart entre les haut-parleurs est 
« optimal» {i.e. ecart maximal de 60 ° recommande pour eviter I’effet «trou du milieu ») 
et qu’un haut-parleur est place en position laterale. Cependant, dans notre cas. Tangle 
de spread ainsi que Tecart entre les haut-parleurs est bien plus important (90 °). Etant 
donne qu’un tel systeme souffre inevitablement de Teffet « trou du milieu », la largeur 
de source est probablement sans commune mesure avec celles observees par Pulkki, sans 
compter les nombreuses confusions arriere-avant (ou avant-arriere) dues a I’absence de 
haut-parleurs lateraux. 
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15.3.2 Analyse des resultats 

Puisque revaluation consiste a classer les quatre stimuli offerts a la comparaison, 
nous allons avoir recours a une ANOVA non-parametrique, puiqu’elle est fondee sur les 
rangs. En outre, chaque sujet testant I’ensemble des conditions, I’etude de leurs effets 
sera intergroupe (comparaison de plusieurs ectiantillons apparies). C’est done VANOVA 
de Friedman qui sera la plus appropriee pour I’analyse des resultats. La significativite 
statistique des differences specifiques sera determinee, quant a elle, grace an test de Wil- 
coxon, qui est une alternative non parametrique au test-f pour des ectiantillons apparies. 
Afin de I’employer comme test post-hoc, il est necessaire d’appliquer I’ajustement de 
Bonferroni. II ne sera alors statistiquement significatif que si p<0,01. 

15.3.2.1 Jugement comparatif global 

Scenes comportant une unique source sonore UANOVA de Friedman indique 
un effet hautement significatif du type de stimuli sur le classement observe, que ce soit 
pour les non-experts, = 216, dl = 3) = 530,542, p < 0,001, ou les experts, 

Chi^{N = 216, dl = 3) = 540,409, p < 0,001. 



(a) (b) 


Fig. 15.17 - Effet global du type de stimulus sur le jugement comparatif pour des scenes 
ne contenant qu’une seule source : (a) classement des non-experts et (b) classement des 
experts. 


Comme on pent le constater sur les figures 15.17.a et 15.17.b, les scenes Directive- 
Sound (Dir.) regoivent bien la note la plus haute^° et les scenes Monophoniques {Mono.) 
la note la plus basse. Le classement des experts est le meme que celui des non-experts, 
meme si ces derniers semblent rencontrer plus de difficultes a departager les scenes Ste- 
reophoniques {Stereo.) et SurroundingSound {Sur.). Si I’on se fonde sur la somme des 
rangs et non sur la valeur mediane des notes, il apparait plus clairement que les deux 
groupes ont juge les scenes Stereophoniques moins « degradees » que les scenes Sur¬ 
roundingSound. Ces deux stimuli pris isolement, le test de Wilcoxon confirme bien que 
^°Note signifiant que le stimulus est juge identique a la reference. 
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la difference est hautement significative ponr les non-experts {p<0,001) et les experts 

{p<0,001). 

Nons avons en I’occasion de constater, ponr la condition Nl, que la translation 
mettait particnlierement a defaut la reprodnction Surroundingsound, par rapport a la 
reprodnction Stereophonique. En effet, nne scene Stereophonique est qnasiment identique 
a la scene Directivesound de reference, quelle que soit la translation, tandis que la scene 
Surroundingsound est qnasiment identique a la scene Monophonique pour la condition 
T3. Le classement obtenu precedemment pourrait done etre imputable en grande partie 
a la distorsion induite par les translations. Or, si I’on effectue I’analyse en omettant les 
conditions experiment ales Tl, T2 et T3 (soit 12 situations d’ecoute an lieu de 24, pour 
cette condition), on observe les memes tendances. Meme si la difference de classement 
entre les scenes Surrounding Sound et Stereophoniques tend a se reduire quelque pen, le 
test de Wilcoxon indique qu’elle est toujours significative pour le groupe de non-experts 
{p < 0,01) et hautement significative pour le groupe d’experts {p < 0,001). 

Scenes comportant trois sources sonores h’ANOVA de Friedman indique un effet 
hautement significatif du type de stimuli sur le classement observe, que ce soit pour les 
non-experts, = 216, dl = 3) = 517,471, p < 0,001, on les experts, = 

216, dl = 3) = 546,465, p < 0,001. 



(a) (b) 


Fig. 15.18 - Effet global du type de stimulus sur le jugement comparatif pour des scenes 
contenant trois sources : (a) classement des non-experts et (b) classement des experts. 


On constate tout d’abord, pour la condition N3, que les differences de classement 
entre les scenes Surrounding Sound et Stereophoniques tendent a s’estomper. Comme on 
pent le remarquer sur la figure 15.18, si les non-experts considerent encore que la scene 
Surroundings ound introduit nne distorsion plus importante, les experts, quant a eux, 
estiment la degradation qnasiment equivalente. Ces deux stimuli pris isolement, le test 
de Wilcoxon indique bien que la difference est hautement significative pour le groupe de 
non-experts, {p < 0,001), mais qu’elle n’est pas significative pour celui des experts {p 
= 0 , 954 ). En outre, il semblerait que ces derniers jugent plus severement la distorsion 
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par rapport a la scene de reference. 

Si Ton effectue a nouveau I’analyse en omettant, comme precedemment, les condi¬ 
tions experimentales Tl, T2 et T3, on obtient les memes tendances. Cependant, d’apres 
le test de Wilcoxon, la difference de classement entre les scenes SurroundingSound et Ste- 
reophoniques n’est significative ni pour les experts {p — 0,136), ni pour les non-experts 
p = 0,127). 

Scenes comportant six sources sonores Encore une fois, VANOVA de Friedman 
indique un effet hautement significatif du type de stimuli sur le classement observe, 
que ce soit pour les non-experts, Chi‘^{N — 216, dl = 3) = 517,652, p < 0,001, on les 
experts, = 216, dl = 3) = 539,983, p < 0,001. 


° Midiane □ 2S%-75% I Min-Max 

□ Mediane □ 25%-75% I Min-Max 








Non-experts 




Experts 

n n 

D 







I rangs: 819 243,5 549,5 548 

Z rangs: 826 229,5 508,5 596 




Dir. Mono. Stereo. Sur. 

(a) 


Mono. Stereo. Sur. 
(b) 


Fig. 15.19 - Effet global du type de stimulus sur le jugement comparatif pour des scenes 
contenant six sources : (a) classement des non-experts et (b) classement des experts. 


Conformement a notre hypothese, la condition N6 est plus favorable aux Surroun¬ 
dingSound que les conditions NI et N3. En effet, comme on pent le remarquer Figure 
15.19, meme si les degradations introduites par les scenes Stereophoniques et Surroun¬ 
dingSound sont jugees equivalentes par les non-experts, cette derniere est jugee plus 
fidele a la scene de reference par les experts. Le test de Wilcoxon confirme bien cette 
observation, puisque la difference entre les deux stimuli n’est pas significative pour les 
non-experts {p — 0,737), tandis qu’elle est hautement significative pour les experts {p 
< 0,001). On obtient exactement le meme resultat si I’on effectue I’analyse en omettant 
les conditions Tl, T2 et T3. 


Le rang des scenes DirectiveSound et Monophoniques ont reciproquement le rang le 
plus eleve et le plus faible dans tons les cas de figure. C’est done bien avec les scenes 
Stereophoniques que les scenes SurroundingSound se retrouve en concurrence. Ainsi, 
I’analyse statistique qui suit, nous n’observerons que les differences de rang entre ces 
deux stimuli. 
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15.3.2.2 Effet de la translation sur le jugement comparatif 

Scenes comportant une unique source sonore On observe un effet hautement 
significatif de la translation snr le rang des scenes Stereophoniques ponr les non-experts, 
Chi^{N = 36, dl = 2) = 17,072, p < 0,001 et les experts, = 36, dl = 2) = 18,869, 

p < 0,001 (Fignre 15.20). Comme on ponvait s’y attendre, elles regoivent, en general, 
nne note relativement elevee, bien qne non maximale, ce qni signifie qne les participants 
ont bien pergn la difference de nivean de 2 dB, par rapport a la scene Directivesound 
de reference. Cependant, on est snrpris de constater qne les non-experts ont majoritai- 
rement jnge la scene Stereophonique identiqne a la reference, ponr la translation T2. Le 
test de Wilcoxon confirme, ponr ce gronpe, qne les differences de rang entre T1 et T2 
et entre T2 et T3 sont significatives, alors qne la difference entre celle entre T1 et T3 
ne Lest pas (Tablean 15.1). A I’inverse, ponr les experts, senle la difference entre T1 
et T3 est significative. On remarqne, d’aillenrs, qne le rang des scenes Stereophoniques 
angmente lorsqne la translation devient pins importante. 


Non-experts 



T1 

T2 

T3 

T1 


p < 0,01 

p = 0,767 

T2 

p < 0,01 

- 

p < 0,01 

T3 

p = 0,767 

p < 0,01 

- 


Tab. 15.1 - Nivean de significativite dn test 
contenant nne sonrce sonore. 


Experts 



T1 

T2 

T3 

T1 


p = 0,028 

p < 0,01 

T2 

p = 0,028 


p = 0,224 

T3 

p < 0,01 

p = 0,224 



de Wilcoxon ponr les scenes Stereophoniques 


□ Medians □ 2S%-75% I Min-Max 

° Medians □25%-7S% I Min-Max 

0 

0 




T 

. 1 

Experts 



Z rangs: 64,5 86 65,5 

Z rangs: 57.5 7 

7 81 

.5 


T1 T2 T3 T1 T2 T3 


(a) 


(b) 


Fig. 15.20 - Effet de la translation snr le rang des scenes Stereophoniques contenant 
nne sonrce sonore, ponr les non-experts (a) et les experts (b). 


L’effet de la translation snr le classement des scenes Surroundingsound est Ini anssi 
hantement significatif, qne ce soit ponr les non-experts, Chi‘^{'N = 36, dl = 2) = 49,207, 
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p < 0,001 ou les experts, C/ii^(N = 36, dl = 2) = 61,786, p < 0,001 (Figure 15.21). On 
remarque, tout d’abord, pour la translation Tl, que les non-experts ont juge majoritai- 
rement la scene Surrounding identique a la scene de reference. En outre, conformement a 
nos attentes, les notes attribuees aux scenes SurroundingSound diminnent a mesure que 
1’amplitude de la translation augmente. Le test de Wilcoxon confirme que la difference 
de rang entre les conditions Tl et T2 est hautement significative ponr les non-experts, 
comme pour les experts {p < 0,001). De meme, pour la difference entre les conditions 
T2 et T3. Enfin, il semblerait, encore une fois, que les experts jugent plus severement les 
distorsions par rapport a la scene de reference. D’ailleurs, on notera pour la translation 
T3, qn’ils ont juge majoritairement la distorsion introduite par les scenes Surrounding- 
Sound equivalente a celle introduite par les scenes Monophoniques {i.e. mediane egale 
a 1). 



(a) (b) 


Fig. 15.21 - Effet de la translation sur le rang des scenes SurroundingSound contenant 
une source sonore, pour les non-experts (a) et les experts (b). 


Scenes comportant trois sources sonores UANOVA de Friedman indique un 
effet significatif de la translation sur le rang des scenes Stereophoniques ponr les non¬ 
experts, — 36, dl = 2) = 6,382, p < 0,05, et hautement significatif pour les 

experts, Chi^{h\ — 36, dl = 2) = 18,022, p < 0,001 (Figure 15.22). II semblerait que 
Ton observe une augmentation du rang des scenes Stereophoniques a mesure que la 
translation devient plus importante. Le test de Wilcoxon confirme que I’effet est plus 
flagrant ponr les experts, puisque seule la difference entre les conditions Tl et T3 pour 
ce groupe est significative (Tableau 15.2). 
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Non-experts 



T1 

T2 

T3 

T1 


p = 0,058 

p = 0,047 

T2 

p = 0,058 


p = 0,813 

T3 

p = 0,047 

p = 0,813 

- 


Tab. 15.2 - Niveau de significativite du test 
contenant trois sources sonores. 


Experts 



T1 

T2 

T3 

T1 


p = 0,034 

p < 0,001 

T2 

p = 0,034 


p = 0,019 

T3 

p < 0,001 

p = 0,019 

- 


de Wilcoxon pour les scenes Stereophoniques 



Fig. 15.22 - Effet de la translation sur le rang des scenes Stereophoniques contenant 
trois sources sonores, pour les non-experts (a) et les experts (b). 


En outre, on observe un effet hautement significatif de la translation sur le classement 
des scenes Surrounding Sound pour les non-experts, Chi‘^(N — 36, dl = 2) = 37,488, p < 
0,001 et les experts, C'/ii^(N = 36, dl = 2) = 39,295, p < 0,001 (Figure 15.23). Meme 
si I’effet semble un pen moins marque que pour la condition Nl, on observe toutefois 
une nette tendance a la decroissance des notes a mesure que la translation devient plus 
importante. D’ailleurs, il se pourrait que cet effet soit en partie responsable de celui 
observe sur les scenes Stereophoniques ; leur rang tend a augmenter parce que celui des 
scenes Surrounding Sound diminue. Cela expliquerait d’ailleurs la variation significative 
des rangs des scenes Stereophoniques pour la condition Nl, alors que la distorsion etait 
relativement faible et independante de la translation (augmentation de 2 dB du niveau 
sonore). Le test de Wilcoxon confirme cette tendance a la decroissance du rang des 
Surroundingsound a mesure que I’amplitude de la translation augmente, puisque, seule 
la difference entre les conditions T2 et T3 n’est pas significative pour les non-experts 
et les experts (Tableau 15.3). 

























Hypotheses et resultats 


279 


Non-experts 



T1 

T2 

T3 

T1 


p < 0,001 

p < 0,001 

T2 

p < 0,001 


p = 0,109 

T3 

p < 0,001 

p = 0,109 

- 


Tab. 15.3 - Niveau de significativite du test 
Sound contenant trois sources sonores. 


Experts 



T1 

T2 

T3 

T1 


p < 0,001 

p < 0,001 

T2 

p < 0,001 

- 

p - 0,058 

T3 

p < 0,001 

p - 0,058 

- 


de Wilcoxon pour les scenes Surrounding- 


° M6dlane □ 25%-75% I Min-Max 

n Mediane □ 25%-7S% I Min-Max 


] 





Non-experts 

r 

P - 


Experts 

0 







. T 


Z rangs: 95,5 6 

3 57,5 

Z rangs; 95,5 64,5 56 


T1 T2 T3 T1 T2 T3 


(a) 


(b) 


Fig. 15.23 - Effet de la translation sur le rang des scenes Surrounding Sound contenant 
trois sources sonores, pour les non-experts (a) et les experts (b). 


Scenes comportant six sources sonores Cette fois-ci, VANOVA de Friedman in- 
dique que I’effet de la translation sur le rang des scenes Stereophoniques n’est pas signi- 
ficatif pour les non-experts, Chi‘^(N = 36, dl = 2) = 6,000, p = 0,04 97. En revanche, il 
est hautement significatif pour le groupe d’experts, Chi‘^(N — 36, dl = 2) = 16,149, p 
< 0,001 (Figure 15.24). 


Experts 



T1 

T2 

T3 

T1 

- 

p = 0,035 

p<0,01 

T2 

p = 0,035 

- 

p = 0,177 

T3 

p<0,01 

p = 0,177 

- 


Tab. 15.4 - Niveau de significativite du test de Wilcoxon pour les scenes Stereophoniques 
contenant six sources sonores. 


A nouveau, le jugement des premiers semble moins « tranche » (Figure 15.24.a) 
que celui des seconds (Figure 15.24.b). Le groupe d’experts semblerait bien percevoir 
une diminution relative de la distorsion a mesure que I’amplitude de la translation 
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augmente, bien que seule la difference entre les conditions T1 et T3 soit significative 
(Tablean 15.4). 



(a) (b) 


Fig. 15.24 - Effet de la translation snr le rang des scenes Stereophoniques contenant 
six sonrces sonores, ponr les non-experts (a) et les experts (b). 


L’effet de la translation snr les scenes SurroundingSound est, quant a lui, hautement 
significatif pour les non-experts, C/ii^(N = 36, dl = 2) = 16,373, p < 0,001, et les 
non-experts, Chi'^{N — 36, dl = 2) = 36,400, p < 0,001. Comme precedemment, il 
semblerait que le rang des scenes SurroundingSound diminue a mesure que I’amplitude 
de translation augmente (Figure 15.25). On constate surtout que les deux groupes ont 
juge majoritairement la scene SurroundingSound identique a la scene de reference pour 
la translation Tl. 



(a) (b) 


Fig. 15.25 - Effet de la translation snr le rang des scenes SurroundingSound contenant 
six sources sonores, pour les non-experts (a) et les experts (b). 


Meme si la difference entre les conditions T2 et T3 n’est pas significative pour 
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Non-experts 



T1 

T2 

T3 

T1 


p < 0,001 

p < 0,001 

T2 

p < 0,001 


p = 0,862 

T3 

p < 0,001 

p = 0,862 

- 


Tab. 15.5 - Niveau de significativite du test 
Sound contenant six sources sonores. 


Experts 



T1 

T2 

T3 

T1 


p < 0,001 

p < 0,001 

T2 

p < 0,001 

- 

p - 0,257 

T3 

p < 0,001 

p - 0,257 

- 


de Wilcoxon pour les scenes Surrounding- 


les non-experts et les experts, le test de Wilcoxon confirme toutefois cette tendance 
(Tableau 15.5). 

15.3.2.3 Effet de la rotation sur le jugement comparatif 

Scenes comportant une unique source sonore UANOVA de Friedman indique 
que I’effet de la rotation sur le rang des scenes Stereophoniques est hautement significatif 
pour les non-experts, Chi^(N — 36, dl = 2) = 23,205, p < 0,001, mais qu’il n’est pas 
significatif pour les experts, Chi^iH = 36, dl = 2) = 0,636, p = 0,727 (Figure 15.26). 



(a) (b) 


Fig. 15.26 - Effet de la rotation sur le rang des scenes Stereophoniques contenant une 
source sonore, pour les non-experts (a) et les experts (b). 


Le test de Wilcoxon indique cependant que seules les differences de rang entre R1 et 
R2 et entre R1 et R3 sont significatives (Tableau 15.6). Ainsi, il semblerait que les non¬ 
experts aient rencontre plus de difficulte que les experts a discerner les differences entre 
la scene Stereophonique et la scene de reference, puisqu’ils ont juge majoritairement 
les scenes Stereophoniques identiques aux scenes de references pour la rotation Rl. La 
distorsion devenant tout de meme plus flagrante pour une rotation plus importante, 
cela expliquerait I’effet observe. 
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Non-experts 



Rl 

R2 

R3 

Rl 


p < 0,01 

p<0,01 

R2 

p < 0,01 


p = 0,204 

R3 

p < 0,01 

p = 0,204 

- 


Tab. 15.6 - Niveau de significativite du test de Wilcoxon pour les scenes Stereophoniques 
contenant une source sonore. 


En revanche, comme nous I’avions suppose, la distorsion introduite pas les scenes 
Surroundingsound semble beaucoup plus flagrante, puisque VANOVA indique un effet 
hautement signiflcatif pour les non-experts, = 36, dl = 2) = 35,706, p < 0,001, 

comme pour les experts, = 36, dl = 2) = 45,662, p < 0,001 (Figure 15.27). 



(a) (b) 


Fig. 15.27 - Effet de la rotation sur le rang des scenes Surrounding Sound contenant 
une source sonore, pour les non-experts (a) et les experts (b). 


Le test de Wilcoxon indique que la seule la difference de rang entre les conditions R2 
et R3, pour les experts, n’est pas signiflcative (Tableau 15.7). Cela confirme I’hypothese 
selon laquelle la distorsion pergue est plus importante a mesure que I’amplitude de la 
rotation augmente et montre, encore une fois, que la notation des experts est souvent 
plus severe que celle des non-experts . Ces derniers semblent en effet moins sensibles a 
I’augmentation de la largeur apparente de la source, du moins lorsque celle-ci n’est pas 
trop importante (condition Rl). 
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Non-experts 



R1 

R2 

R3 

R1 


p < 0,001 

p < 0,001 

R2 

p < 0,001 


p < 0,001 

R3 

p < 0,001 

p < 0,001 

- 


Tab. 15.7 - Niveau de significativite du test 
Sound contenant une source sonore. 


Experts 



R1 

R2 

R3 

R1 


p < 0,001 

p < 0,001 

R2 

p < 0,001 

- 

p - 0,624 

R3 

p < 0,001 

p = 0,624 

- 


de Wilcoxon pour les scenes Surrounding- 


Scenes comportant trois sources sonores Cette fois-ci VANOVA de Friedman 
indique que I’effet de la rotation sur le rang des scenes Stereophoniques n’est pas si- 
gnificatif, ni pour les non-experts, C'/ii^(N = 36, dl = 2) = 4,588, p = 0,100, ni pour 
les experts, = 36, dl = 2) = 4,465, p = 0,107 (Figure 15.28). On pent tout de 

meme remarquer que les notes semblent, en general, plus basses que pour la condition 
NI (Figure 15.26). 



(a) (b) 


Fig. 15.28 - Effet de la rotation sur le rang des scenes Stereophoniques contenant trois 
sources sonores, pour les non-experts (a) et les experts (b). 


L’effet sur le rang des scenes SurroundingSound est, quant a lui, hautement signifi- 
catif pour les non-experts, Chi'^(N — 36, dl = 2) = 19,928, p < 0,001 et significatif pour 
les experts, Chi^(N = 36, dl = 2) = 10,674, p < 0,01 (Figure 15.29). Le test de Wil¬ 
coxon indique que seules les difference de rang entre R2 et R3 et entre R1 et R3, pour 
les non-experts, sont significatives (Tableau 15.8). Ainsi, bien que I’on observe globale- 
ment une augmentation de la distorsion relative des scenes SurroundingSound a mesure 
que I’amplitude de la rotation augmente, I’effet est moins marque que precedemment 
(condition NI). II semble que le desaccord entre sujets soit plus important, notamment 
pour les non-experts, qui jugent la distorsion moins importante pour la rotation R2 que 
pour la rotation R1 . 
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Non-experts 



R1 

R2 

R3 

R1 


p = 0,740 

p<0,01 

R2 

p - 0,740 

- 

p < 0,001 

R3 

p<0,01 

p < 0,001 

- 


Tab. 15.8 - Niveau de significativite du test 
Sound contenant trois sources sonores. 


Experts 



R1 

R2 

R3 

R1 


p = 0,094 

p = 0,017 

R2 

p = 0,094 

- 

p = 0,532 

R3 

p = 0,017 

p = 0,532 

- 


de Wilcoxon pour les scenes Surrounding- 



(a) (b) 


Fig. 15.29 - Effet de la rotation sur le rang des scenes Surrounding Sound contenant 
trois sources sonores, pour les non-experts (a) et les experts (b). 


Scenes comportant six sources sonores On observe un effet hautement significatif 
de la rotation sur le rang des scenes Stereophoniques pour les non-experts, C/ii^(N = 
36, dl = 2) = 17,958, p < 0,001 et significatif pour les experts, Chi^{H — 36, dl = 2) 
= 9,159, p < 0,05 (Figure 15.30). II semblerait, pour les deux groupes, que le rang des 
scenes Stereophoniques augmente a mesure que Tangle de rotation est plus important. 
Toutefois, Teffet n’est pas tres marque, puisque le test de Wilcoxon indique que seule la 
difference entre les conditions R1 et R3, pour les non-experts, est significative (Tableau 
15.9). 


Non-experts 



R1 

R2 

R3 

R1 


p = 0,014 

p < 0,01 

R2 

p - 0,014 

- 

p = 0,506 

R3 

p < 0,01 

p = 0,506 

- 


Experts 



R1 

R2 

R3 

R1 


p = 0,059 

p = 0,015 

R2 

p = 0,059 

- 

p = 0,420 

R3 

p = 0,015 

p = 0,420 



Tab. 15.9 - Niveau de significativite du test de Wilcoxon pour les scenes Stereophoniques 
contenant six sources sonores. 
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Fig. 15.30 - Effet de la rotation sur le rang des scenes Stereophoniques contenant six 
sources sonores, pour les non-experts (a) et les experts (b). 


Comme precedemment, VANOVA de Friedman indique que I’effet est hautement 
significatif pour les non-experts, Chi‘^{N = 36, dl = 2) = 22,981, p < 0,001, et significatif 
pour les experts, Chi‘^(N = 36, dl = 2) = 8,465, p < 0,05 (Figure 15.31). 



(a) (b) 


Fig. 15.31 - Effet de la rotation sur le rang des scenes Surrounding Sound contenant six 
sources sonores, pour les non-experts (a) et les experts (b). 


A premiere vue, I’effet de la rotation semble plus marque qu’il ne I’etait pour les 
scenes Stereophoniques. Pour les non-experts, le rang des Surrounding Sound decroit 
bien lorsque Tangle de rotation est plus important. Le test de Wilcoxon indique que 
seule la difference entre les condition R1 et R2 n’est pas significative (Tableau 15.10). 
Cependant, encore une fois, aucune des differences observees n’est significative, pour les 
experts. 
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Non-experts Experts 



R1 

R2 

R3 

R1 


p = 0,102 

p = 0,046 

R2 

p = 0,102 

- 

p = 0,826 

R3 

II 

p = 0,826 

- 



R1 

R2 

R3 

R1 


p = 0,338 

p < 0,001 

R2 

p = 0,338 

- 

p < 0,001 

R3 

p < 0,001 

p < 0,001 

- 


Tab. 15.10 - Niveau de significativite du test de Wilcoxon pour les scenes Surrounding- 
Sound contenant six sources sonores. 


15.3.2.4 EfFet du nombre de Directivesound 

Effet sur revaluation des scenes Stereophoniques Comme on pouvait s’y at- 
tendre, on observe un effet hautement significatif du nombre de sources sonores sur le 
rang des scenes Stereophoniques, que ce soit pour les non-experts, Chi^ (N = 216, dl 
= 2) = 31,601, p < 0,001 on les experts Chi^{^ = 216, dl = 2) = 85,147, p < 0,001 
(Figure 15.32). 


□ Midiane □ 25%-75% I Min-Max 

D Medlane □ 25%-75% I Min-Max 


D 






[ 

Non-experts 




Experts 




I rangs: 480,5 409 406,5 

I rangs: 516,5 400,5 379 


S 25 
I 2,0 

« 1.5 


N1 N3 N6 
(b) 


Fig. 15.32 - Effet du nombre de sources sur le rang des scenes Stereophoniques, pour 
les non-experts (a) et les experts (b). 


On remarque, que le jugement des experts est plus severe que celui des non-experts 
et, surtout, que le rang des scenes Stereophoniques decroit globalement lorsque le nombre 
de sources sonores augmente. L’effet semble essentiellement du a la difference entre les 
conditions N1 et N3, puisque la decroissance de rangs entre les conditions N3 et N6 
est assez faible. D’ailleurs le test de Wilcoxon indique que la difference entre N3 et N6 
n’est pas significative pour les non-experts, ni pour les experts (Tableau 15.11). 
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Non-experts Experts 



N1 

N3 

N6 

N1 


p < 0,001 

p < 0,001 

N3 

p < 0,001 


p - 0,335 

N6 

p < 0,001 

p = 0,335 

- 



N1 

N3 

N6 

N1 


p < 0,001 

p < 0,001 

N3 

p < 0,001 


p = 0,815 

N6 

p < 0,001 

p = 0,815 

- 


Tab. 15.11 - Niveau de significativite du test de Wilcoxon pour les scenes Stereopho- 
niques. 


Effet sur I’evaluation des scenes Surrounding Sound L’effet du nombre de sources 
sonore sur le rang des scene Surrounding Sound est, lui aussi, hautement significatif pour 
les non-experts, C'/ii^(N = 216, dl = 2) = 15,301, p < 0,001, et les experts, C'/ii^(N = 
216, dl = 2) = 92,278, p < 0,001 (Figure 15.33). 



(a) (b) 


Fig. 15.33 - Effet du nombre de sources sur le rang des scenes Surrounding Sound, pour 
les non-experts (a) et les experts (b). 


On observe ici la tendance inverse de la precedente : le rang des scenes Surrounding- 
Sound tend globalement a augmenter lorsque le nombre de sources sonores augmente. 
En effet, d’apres le test de Wilcoxon, le contraste entre les conditions N3 et N6 est 
relativement important et significatif, pour les experts comme pour les non-experts 
(Tableau 15.12). II semble d’ailleurs, que c’est veritablement a partir de R6 que I’effet 
se fait ressentir, puisque la difference entre N1 et N3 n’est pas significative pour les 
non-experts. 

Etant donne que le rang des scenes Stereophoniques tend a diminuer et que celui des 
Surrounding Sound tend a augmenter, il est tentant d’en deduire que I’augmentation du 
nombre de Directivesound met bien en valeur, conformement a notre hypothese, I’ap- 
port des Surrounding Sound par rapport an « downmix » stereophonique « upmixe » sur 
quatre canaux. Cependant, on ne pent emettre aucune conclusion definitive tant que 
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I’on n’aura pas observe de fagon systematique les differences entre les scenes Stereopho- 
niques et SurroundingSound. De la meme fagon nons avons en I’occasion de remarqner 
plnsienrs fois qne le jngement des experts etait, en general, pins severe qne celni des 
non-experts. II nons fant done aussi observer les differences entre ces denx groupes. 

Non-experts Experts 



N1 

N3 

N6 

N1 

- 

p = 0,396 

p < 0,01 

N3 

p = 0,396 

- 

p < 0,001 

N6 

p < 0,01 

p < 0,001 

- 



N1 

N3 

N6 

N1 

- 

p < 0,01 

p < 0,001 

N3 

p < 0,01 

- 

p < 0,001 

N6 

p < 0,001 

p < 0,001 

- 


Tab. 15.12 - Nivean de significativite dn test de Wilcoxon ponr les scenes Surrounding- 
Sound. 


15.3.3 Complements d’analyse 

15.3.3.1 EfFet de la translation sur la comparaison des scenes Stereopho- 
niques et SurroundingSound 

Scenes comportant une source sonore Comme on pent le constater snr la fignre 
15.34, ponr T2 et T3, les experts et les non-experts jugent les scenes Stereophoniques 
pins fideles anx scenes de reference qne les scenes SurroundingSound. Bien qne ces 
dernieres semblent avoir ete jngees pins fideles ponr Tl,le test de Wilcoxon nons indiqne 
qne les differences ne sont pas significatives ponr les denx gronpes. 


T1 T2 T3 



Fig. 15.34 - Effet de la translation snr la comparaison des scenes Stereophoniques et 
SurroundingSound contenant nne senle sonree sonore. 


Scenes comportant trois sources sonores On observe la meme tendance qne pre- 
cedemment ponr le gronpe des non-experts. Les scenes Stereophoniqnes sont jngees pins 
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fideles pour T2 et T3, mais la difference n’est pas signigicative pour T1 (Figure 15.35). 
En revanche, pour les experts, le test de Wilcoxon indique que la difference entre les 
scenes Stereophoniques et SurroundingSound est significative. Ces dernieres sont bien 
jugees plus fideles aux scenes de reference pour Tl, mais ce sont encore les scenes Ste¬ 
reophoniques qui sont jugees plus fideles pour la translation T3. 


T1 T2 T3 



Fig. 15.35 - Effet de la translation sur la comparaison des scenes Stereophoniques et 
SurroundingSound contenant trois sources sonores. 


Scenes comportant six sources sonores Cette fois-ci la tendance c’est definitive- 
ment inversee. 


T1 T2 T3 



Fig. 15.36 - Effet de la translation sur la comparaison des scenes Stereophoniques et 
SurroundingSound contenant six sources sonores. 


Pour Tl les experts comme les non-experts ont juges les scenes SurroundingSound 
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plus fideles aux scenes de reference que les scenes Stereophoniques (Figure 15.36). Le 
test de Wilcoxon confirme que les differences sent significatives. En revanche, elles ne 
le sont plus pour les translations T2 et T3. 

15.3.3.2 Effet de la rotation sur la comparaison des scenes Stereophoniques 
et Surrounding Sound 

Scenes comportant une source sonore Comme pour la translation, les scenes 
Stereophoniques sont jugees plus fideles aux scenes de reference lorsque I’amplitude de 
la rotation devient plus importante {R2 et R3). De meme, le test de Wilcoxon indique 
que les differences ne sont pas significatives pour R1 (Figure 15.37). Elle ne Test pas 
non plus pour R2, dans le cas des non-experts. 


R1 R2 R3 



Fig. 15.37 - Effet de la rotation sur la comparaison des scenes Stereophoniques et 
Surroundingsound contenant une seule source sonore. 


Scenes comportant trois sources sonores Les scenes Stereophoniques sont encore 
une fois jugees plus fideles a la scene de reference pour la rotation R3, mais cette fois-ci 
la difference n’est significative que pour les non-experts (Figure 15.38). D’ailleurs, e’est 
la seule difference significative que I’on observe. 

Scenes comportant six sources sonores Comme dans le cas de la translation, on 
remarque, ponr la rotation Rl, que les sujets ont juge les scenes SurroundingSound plus 
fideles a la reference que les scenes Stereophoniques (figure 15.39). Le test de Wilcoxon 
confirme que la difference est significative pour les experts. Si I’on applique I’ajustement 
de Bonferroni, la difference pour les non-experts est a la limite du seuil de significativite. 
Cela ne remet aucunement en cause I’effet observe. Cependant, on pent constater que 
ce groupe est plus sensible a la distorsion introduite par les scenes SurroundingSound 
que ne Test le groupe d’experts. En effet, pour la rotation R3, les non-experts jugent les 
scenes Stereophoniques plus fideles aux scenes de reference, alors que la difference n’est 
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pas significative pour les experts. 

On constate, encore une fois, une difference flagrante de jugement entre les groupes 
d’experts et de non-experts. Jusqu’a present, il nous avait semble que le jugement des 
premiers etait globalement plus « severe » que celui des seconds, sans que cela n’ait 
veritablement d’impact sur la tendance generate. Cependant, ici, il apparait que la 
notation des experts penche plutot en faveur des scenes Surrounding Sound, et que celui 
des non-experts, plutot en faveur des scenes Stereophoniques. 


R1 R2 R3 



Fig. 15.38 - Effet de la rotation sur la comparaison des scenes Stereophoniques et 
Surrounding Sound contenant trois sources sonores. 


R1 R2 R3 



Fig. 15.39 - Effet de la rotation sur la comparaison des scenes Stereophoniques et 
Surrounding Sound contenant six sources sonores. 
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15.3.3.3 Effet du niveau d’expertise 

Le dernier complement qne nons apportons a I’analyse des resnltats est la compa- 
raisons des notes respectives des scenes Stereophoniques et SurroundingSound qni ont 
ete attribnees par le gronpe d’experts et de non-experts. Or I’effet dn nivean d’exper¬ 
tise etant inter-gronpe et non pins intra-gronpe, nons n’anrons pas reconrs cette fois-ci 
an test de Wilcoxon mais an test U de Mann-Whitney, qni est nne alternative non- 
parametriqne an test t ponr des echantillons independants. Or, comme nons I’avions 
deja remarqne, le jngement des experts est pins « severe » qne celni des non-experts 
dans qnasiment tons les cas de fignre. En effet, le test U de Mann-Whitney indiqne qne 
senle la difference ponr la condition N6 et ponr les scenes SurroundingSound n’est pas 
significative (Fignre 15.40). 



Fig. 15.40 - Effet dn nivean d’expertise snr les notes respectives des scenes Stereopho¬ 
niques et SurroundingSound ponr les conditions Nl, N3 et N6. 


15.4 Discussion 

15.4.1 Synthese des effets observes 

Jngement comparatif global Nons avons, dans nn premier temps, observe le clas- 
sement qni a ete realise par les denx gronpes de snjets (non-experts et experts). Void 
ce qne nons avons pn remarqner, qnant anx differences entre les scenes Stereophoniques 
et SurroundingSound : 

- (Scenes contenant nne source sonore) La distorsion par rapport a la scene Di- 
rectiveSound de reference est jngee nnanimement pins importante ponr les scenes 
SurroundingSound qne ponr les scenes Stereophoniques. Ce classement n’est pas 
impntable anx translations en particnlier, meme si elles mettent en valenr de fagon 
triviale les scenes Stereophoniques. 
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- (Scenes contenant trois sources sonores) Seuls les non-experts estiment que 
la distorsion introduite par les scenes Surrounding Sound est plus importante que 
cedes introduites par les scenes Stereophoniques. Les experts, quant a eux, jugent 
les distorsions equivalentes. Une fois encore, ce classement n’est pas imputable 
aux translations en particulier. 

- (Scenes contenant six sources sonores) Cette fois-ci les non-experts jugent 
les distorsions equivalentes. En revanche, pour les experts, la tendance s’inverse, 
puisqu’ils jugent les distorsions introduites par les scenes Stereophoniques plus 
importantes que cedes introduites par les scenes Surrounding Sound. 


Ainsi, I’hypothese selon laquelle I’augmentation du nombre de sources 
sonores met en valeur I’apport des Surrounding Sound, par rapport aux 
« downmix » stereophoniques « upmixes » sur quatre canaux, n’est que 
partiellement verifiee. 


II semblerait, pour les non-experts, que la largeur apparente des sources sonores 
et/ou I’unilateradte de la scene ait ete un critere plus important que les « differences 
avant / arriere ». 

Effet de la translation Ensuite, nous avons analyse plus precisement, I’effet des 
translations Tl, T2 et T3 sur les rangs respectifs des scenes Stereophoniques et Sur¬ 
rounding Sound. Void ce que nous avons pu observer : 

- (Scenes contenant une source sonore) Comme on pouvait s’y attendre, la 
distorsion introduite par les scenes Surrounding Sound est jugee plus importante 
a mesure que I’ampdtude de la translation augmente. An final, des la translation 
T2 les scenes Stereophoniques sont jugees les plus fideles aux scenes de reference. 

- (Scenes contenant trois sources sonores) La distorsion introduite par les 
scenes Surrounding Sound est encore jugee plus importante pour T2 que pour Tl, 
mais leur rang ne change pas entre T2 et T3. Pour T3, les experts et les non¬ 
experts jugent que les scenes Stereophoniques sont les plus fideles a la reference. 
Pour Tl, seuls les experts estiment que les scenes Surrounding Sound sont les plus 
fideles. 

- (Scenes contenant six sources sonores) Comme pour la condition N3, la dis¬ 
torsion introduite par les scenes Surrounding Sound augmente globalement, mais 
ede est jugee equivalente pour les translations T2 et T3. Cependant, ici, les scenes 
Surroundingsound sont jugees identiques a la reference pour Tl. Les scenes Ste¬ 
reophoniques, quant a edes, sont jugees beaucoup moins fideles a la reference. 
L’augmentation de dangle de rotation ne suffit pas a inverser cette tendance; du 
moins, les distorsions introduites par les scenes Surrounding Sound et Stereopho¬ 
niques sont jugees plus on moins equivalentes. 
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Pour la translation, I’augmentation du nombre de DirectiveSound met 
bien en valeur I’apport des Surrounding Sound par rapport aux « down- 
mix » stereophoniques « upmixes » sur quatre canaux. 


Nous aliens voir maintenant ce qu’il en etait pour la rotation. 

Effet de la rotation De la meme fagon, nous avons analyse I’effet des rotations Rl, 
R2 et R3 sur les rangs respectifs des scenes Stereophoniques et Surrounding Sound. Void 
ce que nous avons pu observer : 

- (Scenes contenant une source sonore) Pour la rotation Rl, les non-experts 
ont juge que les scenes Stereophoniques et SurroundingSound etaient identiques 
aux scenes de reference. Pour les deux types de scene, la distorsion pergue aug- 
mente, a priori, a mesure que Tangle de rotation est plus important. Cependant, 
celle introduite par les scenes Stereophoniques est plus difficilement perceptible, 
puisqu’elle est fondee sur la localisation d’une source laterale. On n’est done pas 
etonne que les differences observees soient si peu significatives. La distorsion in¬ 
troduite par les scenes SurroundingSound (augmentation de la largeur apparente 
de la source), quant a elle, est beaucoup evidente. Elle est d’ailleurs jugee una- 
nimement plus importante, a mesure que Tangle de rotation augmente. Au final, 
des la rotation R2 {R3 pour les non-experts), les scenes Stereophoniques sont 
jugees plus fideles que les scenes SurroundingSound. Sinon, la distorsion est jugee 
equivalente pour Rl. 

- (Scenes contenant trois sources sonores) L’effet observe pour les scenes Ste¬ 
reophoniques n’est pas significatif. En outre, bien que celui observe pour les scenes 
SurroundingSound le soit, le disaccord entre sujets semble relativement important, 
puisque les differences ne sont significatives que pour les non-experts. D’ailleurs la 
distorsion pergue ne commence a augmenter significativement qu’entre R2 et R3. 
De meme, bien que les scenes Stereophoniques soient jugees plus fideles que les 
scenes SurroundingSound par les non-experts pour la rotation R3, e’est Tunique 
difference significative que Ton observe. 

- (Scenes contenant six sources sonores Le rang des scenes SurroundingSound 
tend bien a decroitre a mesure que Tangle de rotation est plus important, mais 
les differences ne sont significatives que pour les non-experts. Comme pour la 
condition N3, la distorsion pergue ne commence a augmenter significativement 
qu’entre R2 et R3. Le disaccord entre participants se fait aussi ressentir pour 
la comparaison des scenes Stereophoniques et SurroundingSound. En effet, pour 
Rl, experts et non-experts estiment que ces dernieres sont les plus fideles aux 
scenes de reference. Cependant pour R3, seuls les non-experts jugent les scenes 
Stereophoniques plus fideles. II semblerait ici que la notation des experts ait plutot 
penche en faveur des scenes SurroundingSound, et celui des non-experts plutot en 
faveur des scenes Stereophoniques. 
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Ainsi, en presence de sources concurrentes, il parait beaucoup plus difficile pour un 
auditeur de discerner la distorsion introduite par les scenes SurroundingSound. 


Conformement a nos attentes, les performances d’analyse de scene au¬ 
ditive sont done bien degradees lorsque le nombre de sources sonores 
augmente. 


Cette degradation des performances parait d’ailleurs etre plus importante id qu’elle 
ne I’etait pour la translation. 


Nous pouvons en conclure que la distorsion introduite par la rotation 
sur les scenes SurroundingSound est moins flagrante que celle introduite 
par la translation. 


Cela n’est pas surprenant si Ton se souvient, que le rendu d’un DirectiveSound pent 
solliciter jusqu’a quatre haut-parleurs lors d’une translation {e.g. le rendu de D^) alors 
qu’au maximum trois haut-parleurs sont sollicites pour une rotation. 

Effet du nombre de sources Nous avons aussi etudie I’effet du nombre de sources 
sonores sur les rangs respectifs des scenes Stereophoniques et SurroundingSound. Void 
ce que nous avons observe : 

- (Scenes Stereophoniques) Nous avons remarque que le rang des scenes Ste¬ 
reophoniques diminue lorsque le nombre de sources sonores augmente. Plus pre- 
cisement la distorsion pergue augmente entre N1 et N3 mais pas entre N3 et 
N6. 

- (Scenes SurroundingSound) Inversement, le rang des scenes SurroundingSound 
augmente correlativement avec I’accroissement du nombre de sources sonores. La 
distorsion pergue diminue entre N3 et N6 pour les non-experts, tandis qu’elle 
diminue progressivement pour les experts (entre N1 et N3 et entre N3 et N6). 


L’effet observe ici nous oflre une raison supplementaire et dMnitive pour 
conclure que I’augmentation du nombre de sources sonores joue en faveur 
des SurroundingSound, bien que I’usage qui en est fait leur soit tres 
defavorable. 


Effet du niveau d’expertise Enfin, suite a certaines remarques que nous avons pu 
faire tout an long de la section 1.3.2, nous avons souhaite examiner les differences de 
notation entre les experts et les non-experts. Or, I’analyse statistique a bien confirme 
notre premiere impression : 


Dans quasiment tons les cas de figure, le jugement des experts est plus 
« severe » que celui des non-experts. 
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15.4.2 Du poids relatif des distorsions objectivables sur I’impression 
de fidelite des scenes Surrounding Sound 

Les Surrounding Sound ont ete etudies ici sous leur plus mauvais jour. Tout d’abord, 
le systeme de diffusion quadriphonique est probablement le pire qui soit en termes de 
spatialisation sonore, etant donne Timprecision de I’image spatiale, due a I’ecart impor¬ 
tant entre les haut-parleurs, et sa relative incapacite a reproduire les sources laterales. 
En outre, les translations et rotations que nous avons ctioisies mettent particuliere- 
ment en valeur leur defaut. En utilisant la meme configuration quadriphonique pour les 
Surroundingsound et en plagant des sources sonores entre deux haut-parleurs virtuels, 
nous etions sur que les transformations T3 et R3 conduiraient respectivement a une 
largeur de source la plus importante possible. Cependant, le choix le plus penalisant a 
ete de donner a ecouter les scenes sonores pour des positions fixes du point d’ecoute. Or, 
I’interet des Surrounding Sound est, avant tout, de rendre un flux audio multicanal po- 
sitionnable et de rendre son comportement plus « credible » lorsque le point d’ecoute se 
deplace. II est fort a parier que I’ecoute de sources en mouvement aurait ete bien plus de- 
favorable aux scenes Stereophoniques, puisqu’elle aurait mis en valeur de fagon flagrante 
leur incapacite a respecter les « differences avant/arriere » {i.e. I’existence de sources 
sonores dans les hemispheres avant et arriere). Ainsi, les scenes Surrounding Sound se 
seraient retrouvees directement en competition avec les scenes Directives ound, non avec 
les scenes Stereophoniques, comme cela a ete le cas ici. Cependant, si nous avions realise 
un test MUSHRA classique, offrant a la comparaison differents deplacements du point 
d’ecoute dans une scene sonore, nous n’aurions pas beneficie d’un jugement comparatif 
de I’auditeur aussi precis que celui observe ici. Nous aurions simplement obtenu un juge¬ 
ment global de qualite nous permettant de savoir si la substitution des DirectiveSound 
par un Surrounding Sound est perceptible et, dans I’affirmative, une vague mesure de la 
« degradation ressentie », relativement aux ancres que sont les scenes Stereophoniques 
et Monophoniques. L’originalite de notre approche vient de notre tentative de mettre en 
evidence les defauts majeurs des SurroundingSound, sans avoir recours pour autant a un 
test de localisation ou tout autre test subjectif evaluant un dispositif sous la contrainte 
d’attributs perceptifs prealables. L’approche « globale » de notre test MUSHRA modifie 
constitue alors une sorte d’intermediaire entre de telles evaluations psychoacoustiques, 
que nous n’avons pas jugees pertinentes, et celles fondees sur I’analyse du discours, 
impliquant des protocoles experimentaux relativement complexes et une analyse psy- 
cholinguistique hors de notre portee. D’ailleurs, si le temps I’avait permis nous aurions 
plutot oriente notre choix vers une etude utilisabilite, comme cela a ete le cas pour 
I’experience de navigation auditive presentee dans la Deuxieme partie. 

Ainsi, en prenant I’exemple d’une seule source sonore, nous avons pu decrire, dans 
un premier temps, les distorsions « objectivables », introduites par les scenes Surroun¬ 
dingSound et/ou Stereophoniques : 

- (Distorsion 1) Modification du niveau sonore 

- (Distorsion 2) Modification de I’azimut d’une source sonore 
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- (Distorsion 3) Modification de la largeur apparente d’une source sonore, qui 
s’exprime aussi par un non-respect de I’unilateralite^^ de la scene originale (pour 
les scenes Surrounding Sound) 

- (Distorsion 4) Non-respect des differences avant/arriere (pour les scenes Stereo- 
phoniques) 

Cependant, differents facteurs doivent etre pris en compte qui, eux, ne sont pas 
quantifiables et justifient I’intervention d’une evaluation subjective : 

- la vue des haut-parleurs frontaux, qui pent etre responsable d’une inversion arriere- 
avant (si ce n’est une inversion avant-arriere), 

- la presence des haut-parleurs lateraux sur le cone de confusion, qui rend encore 
plus improbable la localisation de sources later ales, 

- la presence de multiples sources concurrentes, qui degradent les performances 
d’analyse de scene auditive. Premierement, si I’auditeur pent percevoir la distor¬ 
sion introduite par une source seule, elle pent ne plus etre perceptible en presence 
d’autres sources. Deuxiemement, si plusieurs sources participent a la distorsion 
par rapport a la scene de reference, I’auditeur pent ne pas etre en mesure de 
distinguer les distorsions de chacune d’elles [i.e. deux distorsions identiques ne 
conduisent pas a une distorsion globale deux fois plus importante). 

Ainsi, I’observation du classement des scenes Stereophoniques et SurroundingSound 
n’a pas pour but, in fine, de determiner quelle est la plus fidele a la scene de reference. 
Cela nous permet surtout de determiner le « poids » relatif des distorsions propres a 
ces deux types de scene {Distorsion 3 et 4) lors du jugement comparatif. Par exemple, 
pour la condition N3, le fait que les scenes Stereophoniques soient encore jugees plus 
fideles que les scenes SurroundingSound, meme en omettant les conditions Tl, T2 et 
T3, signifie que le non-respect des differences avant/arriere a globalement moins de 
poids que I’augmentation de la largeur de source et le non-respect de I’unilateralite qui 
en decoule. Du moins, cela se verifie-t-il pour un systeme de reproduction quadripho- 
nique et un groupe d’auditeurs non-experts. En revanche, le fait que les experts jugent 
globalement la distorsion equivalente pour N3 et les scenes SurroundingSound plus fi¬ 
deles pour la condition N6 montre que le poids relatif de ces distorsions depend aussi 
de la familiarite de I’auditeur avec I’ecoute « multicanal ». D’ailleurs nous avons bien 
constate que les non-experts jugeaient encore la distorsion des scenes SurroundingSound 
plus importante pour la rotation R3, alors qu’elles etaient composees de six sources so- 
nores equitablement reparties autour de I’auditeur. Nous avions alors suppose, dans ces 
conditions, que la notation des experts penchait en faveur des scenes SurroundingSound 
et celui des non-experts, plutot en faveur des scenes Stereophoniques. En d’autres termes, 
il nous a semble que les experts etaient plus sensibles an non-respect des « differences 
avant/arriere » que les non-experts, plus sensibles a la largeur apparente des sources 
sonores. 


seul I’un des couples de haut-parleurs lateraux participent a la reproduction de la scene 
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En outre, cette evaluation a bien mis en evidence I’influence du nombre de sources 
sonores qui composent la scene. En effet, nons avons pn constater que la presence de 
mnltiples sonrces tendait a modifier le classement des stimuli offerts a la comparaison. 

A priori, il y a plnsienrs raisons a cela : 

- Les scenes composees de six sonrces sonores, a la differences des deux autres, 
sont symetriques. Quelle que soit la rotation, l’« activite » des denx paires de 
hant-parlenrs {L, Ls} et {i?, Rs} est eqnivalente (Fignre 15.15). L’nnilateralite 
de la scene n’est pins nn critere snr leqnel I’anditenr pent se fonder. Ponr les 
Surroundingsound, le senl facteur de distorsion par rapport a la scene de reference 
est I’angmentation de la largeur apparente des sources. La distorsion globale est 
done beanconp moins flagrante. 

- Ponr la translation, la contribntion des hant-parleurs contralateranx (L et Ls) 
a la reprodnetion dn Directives ound D 3 (distorsion majenre introdnite par la 
translation) est probablement masqnee par les cinq antres sonrces mettant elles-aussi 
a contribution ces hant-parleurs (Figure 15.12). 

- Comme I’a montre I’experience preliminaire, les performances d’analyse de scene 
sont globalement degradees, ce qni rednit la capacite de I’anditenr a focaliser 
son attention de fagon selective snr nne sonree sonore ou, dn moins, nnit a la 
localisation de chacune d’entre elles. 

Que I’augmentation du nombre de sonrces sonores soit en favenr des scenes Sur- 
roundingSound est d’aillenrs nn resnltat enconrageant. En effet, ces derniers sont pln- 
tot vones, en premier lien, a la reprodnetion des sons d’ambiance, senses etre composes 
d’un nombre important de sources sonores. C’est jnstement I’nne des raisons ponr la- 
quelle nous avons preconise leur emploi ponr la navigation dans les environnements de 
grande amplenr; ils permettent de creer des paysages sonores tres riches « a moindre 
frais ». Malgre tont, I’ntilisation d’nn systeme qnadriphoniqne semble poser de serienx 
problemes ponr le rendu des effets de spatialisation. II est probable qu’il ait une part 
de responsabilite non negligeable dans le classement observe, tant la qnalite de I’image 
spatiale est mediocre. Or, nons avons choisi de n’ntiliser qne quatre cananx ponr la 
diffnsion, ponr la simple et bonne raison qne le systeme 5.1 constitne, anjonrd’hni, nn 
standard. Meme s’il existe, snr le marche, des systemes offrant nne resolntion spatiale sn- 
perienre (actnellement 7.1), il demenre que I’augmentation dn nombre de hant-parlenrs 
constituera toujonrs une contrainte relativement forte, freinant quelque peu la demo- 
cratisation des systemes mnlticanal de pins hante qnalite aupres dn grand pnblic^^. Le 
systeme qnadriphoniqne 4.0 a alors ete retenn pnisqne nons ne sonhaitions privilegier 
ancune direction et qn’nn canal central nons paraissait denne d’interet. La configuration 
3-2 ne nons a done pas semble acceptable, meme si elle offre probablement une meilleure 
sensation d’ enveloppement et nne image frontale de meillenre qnalite. En fait, la solntion 
la pins promettense, a notre avis, est I’encodage Ambisonic qni, comme nons I’avons 

serait-ce qu’a cause du probleme pose par leur installation dans une piece non dediee 
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deja signale Section 3.1.2, offre une image sonore naturelle, au regard des mecanismes 
basse frequence, qui plus est homogene {i.e. de meme qualite objective dans toutes les 
directions). Ainsi, avec un un tel systeme, I’image auditive ne serait par rompue par 
des ecarts angulaires trop importants, ce qui nous laisse esperer qu’elle serait en mesure 
de pallier le probleme de la reproduction des sources laterales avec seulement quatre 
haut-parleurs. Cependant, nous avons aussi souleve un certain nombre de problemes de 
mise en oeuvre, qui moderent quelque peu notre enthousiasme : 

- II n’est pas possible, a I’heure actuelle, de compresser le format Ambisonic. Or, 
I’usage des Surrounding Sound comme alternative aux techniques de reduction du 
niveau [TGD03] [TD04] est justifie essentiellement par le cout des algorithmes de 
decompression. 

- L’extension de la « transformation de Lorentz » aux ordres superieurs n’est pas 
possible avec la loi de distorsion angulaire definie {section 5.2.1.3), sauf a dete- 
riorer les caracteristiques d’onde plane. II est done difficile dans I’etat actuel des 
recherches de tirer profit a la fois des proprietes de « scalabilite »de I’encodage 
Ambisonic aux ordres superieurs (ou HO A, pour High Order Ambisonic) et des 
possibilites offertes, au premier ordre, pour la distorsion de perspective. 

L’utilisation de la panoramisation par paires semble done constituer le meilleur com- 
promis. Cependant, pour une diffusion sur haut-parleurs, le systeme quadriphonique 
n’est pas satisfaisant. La configuration hexagonale reguliere nous parait etre le mini¬ 
mum requis (Figure 15.41.b), puisqu’elle permet de disposer un haut-parleur aux azi- 
muts ±90 ° et offre un ecart convenable de 60 ° reduisant I’effet «trou du milieu ». Si Ton 
est vraiment limite a quatre canaux pour quelque raison que ce soit, une configuration 
reguliere en quinconce (Figure 15.41.a) offrirait peut-etre de meilleurs resultats. File 
aurait au moins le merite de pallier le probleme de la reproduction des images laterales, 
qui semblent si importantes pour la sensation d’enveloppement, elle-meme probable- 
ment un facteur essentiel de la qualite pergue des sons d’ambiance, i.e. de I’arriere-plan 
d’un paysage sonore {section 3.2.2). 



Fig. 15.41 - (a) Configuration quadriphonique en quinconce et (b) configuration hexa¬ 
gonale reguliere. 
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Abstraction analytique Cette fois-ci, la maquette que nous avons developpee nous a 
permis d’aborder plus en profondeur la problematique de la conception d’une interface 
de navigation dans un environnement sonore 3D. En effet, la maquette que nous avons 
developpee pour la premiere experience mettait deja a profit une forme A Abstraction 
analytique supposee utile, du point de vue du concepteur, pour la gestion des interac¬ 
tions et, du point de vue de I’utilisateur, pour la creation de representations spatiales 
a priori plus adaptees a la tache qu’il doit accomplir. Nous avons quelque pen avance 
dans cette voie, de fagon ttieorique tout d’abord, en presentant section 13.2 les Trans¬ 
formations de donnees qui pouvaient etre appliquees pour modifier les proprietes de la 
representation spatiale {e.g. selection, agregation, etc.). Dans le cas de donnees georefe- 
rencees, nous avons suggere qu’il pouvait etre utile d’extraire les informations relatives 
au contexte spatial, d’une part, et relatives aux donnees qui y sont referencees, d’autre 
part. Nous avons applique ce principe lors du developpement de I’application ZARA, 
puisque celle-ci extrait les organisations ttiematique et spatiale des objets de la scene, au 
chargement du fichier de description VRML. Concretement, les classes T_ ThemaArea 
et T_SpatialArea qui ont ete definies permettent au controleur (de la classe CContro- 
ler) de realiser differents traitements sur des sous-groupes d’objets cibles par I’une on 
I’autre organisation. Par exemple, le graphe audio etant construit a I’image de I’organi- 
sation spatiale de la scene^, il est possible de modifier facilement le niveau sonore des 
sons appartenant a une meme zone, on de leur appliquer un filtrage afin de simuler une 
occlusion (voir Annexe C). Outre le fait que I’organisation spatiale permette d’agreger 
les traitements audio, qui sont appliques sur la somme (on mixage) d’un groupe de 
signaux et non sur chacun des signaux independamment^, elle pent etre mise a profit 
pour adapter la composition du paysage sonore en fonction de la presence du point 
d’ecoute dans I’une on I’autre des partitions predefinies de I’espace {e.g. banlieue, mai- 
son, cuisine, salon, etc.). Ainsi, plutot que de s’appuyer sur une mesure de distance pour 
determiner si une source sonore est audible, on sur I’intersection d’un rayon avec un 

^Les noeuds du graphe de scene correspondent aux « channel groups » du graphe audio. 

’^C’est une approche classique des ingenieurs du son qui peuvent appliquer un unique effet a un 
groupe de pistes grace aux departs auxiliaires de la table de mixage. Sur une station de montage 
numerique, c’est aussi un moyen d’economiser les ressources du processeurs et de simplifier V automation. 
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obstacle pour determiner s’il elle doit etre « assourdie » (occlusion), on pent, comme 
nous I’avons deja souligne dans un autre contexte, « raisonner » sur I’espace a I’aide 
d’une representation symbolique de celui-ci (e.g. « la cuisine est dans la maison qui, 
elle-meme, est dans une petite ville »). Comme I’illustrent les modeles de sonification^ 
par etape, tels que ceux proposes par Huai-Chi et Riedl [CR98] (section 5.2.2.3) ou 
Caver [Gav95] (section 4-1-3), si les traitements en amont du processus de sonification 
(domaine des donnees) sont plus complexes, les traitements effectues en aval (domaine 
du rendu) n’en seront que plus simples. 

Sons d’ambiance et Surrounding Sound Cependant, la principale contribution de 
cette etude porte plutot sur la mise en oeuvre des technologies de spatialisation. En 
effet, I’objectif que nous nous etions fixe etait bien de concevoir une interface de navi¬ 
gation dans un environnement sonore 3D, mais surtout de proposer, ici, une solution 
a la surcharge inevitable des algorithmes de rendu sonore. En particulier, le rendu des 
sons de zone (ou sons d’ambiance) ont ete identifies comme un goulet d’etranglement 
potentiel pour la conception de telles interfaces, compte tenu de la quantite considerable 
d’informations dont certains environnements virtuels peuvent etre le support^ (e.g. une 
application telle que Google Earth ou un jeu de strategie temps-reel tel que Civilization 
IV). Or, nous avons suppose que cette classe de son pouvait tout a fait se satisfaire 
d’une approche « centree sur le champ sonore », beaucoup plus econome qu’une ap- 
proche « centree sur I’objet ». Elle est meme incontournable si lesdites ambiances ne 
sont pas construites par montage a partir d’enregistrements monophoniques ou de sons 
de synthese, mais directement issus d’une prise de son multicanal, utilisant, par exemple, 
un microphone Soundfield (Ambisonic) ou simplement deux couples AB-ORTF (Qua- 
driphonie). 

Reduction du niveau de detail Afin de rendre les flux audio multicanal (Sur¬ 
rounding Sound) « utilisables », dans le contexte d’une application interactive, nous 
avons propose tout d’abord une methode simple et efficace, consistant a positionner un 
cercle de haut-parleurs virtuels dans I’environnement. C’est seulement dans un deuxieme 
temps, que nous avons defini une procedure « hors temps reel», pour la creation de Sur¬ 
rounding Sound, a partir d’une scene constituee exclusivement de DirectiveSound. Elle 
consiste tout simplement a partitionner I’espace a I’aide d’une certaine grille d’echan- 
tillonnage (ou selon I’organisation spatiale de la scene) et a enregistrer autant de Sur- 
roundingSound qu’il existe de partitions non vides. Pour une region donnee, le flux 
audio multicanal cree pent alors etre substitue a I’ensemble des flux audio monopho¬ 
niques qu’elle contenait, conduisant ainsi a une reduction du niveau de detail d’autant 
plus importante que le nombre de partitions et le nombre canaux lors de I’enregistre- 


®Le terme est employe ici dans son acception la plus generale. II peut tout a fait etre employe 
pour decrire la creation du paysage sonore d’un environnement virtuel, si Ton considere les objets qu’il 
contient comme autant de donnees a reference spatiale et sa structure comme autant d’informations 
sur le contexte. 

"^voir la section 13.1.1 pour une discussion de Vutilite supposee des sons d’ambiance pour les Sys- 
temes d’Information Geographique (SIG) mettant en oeuvre les technologies de realite virtuelle. 
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ment etaient faibles. 

Evaluation subjective des Surrounding Sound Afin de caracteriser la distorsion 
introduite par la substitution d’un ensemble de Directivesound par un unique Surroun- 
dingSound nous avons realise un test MUSHRA modifie offrant a la comparaison les 
memes scenes sonores dans quatre versions differentes : DirectiveSound, Surrounding- 
Sound, « downmix » stereophoniqne et monophoniqne « npmixe » snr qnatre canaux. 
Les participants ont realise ces comparaisons dans differentes conditions d’ecoute, no- 
tamment, differents nombres de sonrces sonores (nne, trois on six) et differentes rota¬ 
tions ou translations du point d’ecoute. Les Surrounding Sound ont ete etndie ici sons 
lenr pins manvais jonr pnisqne I’image spatiale offerte par un systeme qnadriphoniqne 
sonffre indeniablement de I’effet « trou dn milieu », du au contraste entre la pauvrete de 
I’image mediane et la precision des images a proximite des hant-parlenrs. En outre, les 
haut-parleurs etant places sur le cone de confusion, la localisation de sources laterales 
parait quasiment impossible. Pire, les differences avant-arriere semblent meme avoir ete 
si peu remarqnables qn’en general, les participants ont jnge les scenes Surrounding- 
Sound moins fideles^ qne les scenes Stereophoniques. D’autres raisons ont cependant ete 
invoquees ponr expliqner nn tel classement, en particnlier les transformations ctioisies 
(translation et rotation), qui mettaient en valeur de fagon flagrante les defants des Sur¬ 
rounding Sound. Nons avons alors formnle notre premiere conclnsion de la fagon snivante : 
ponr un systeme de diffnsion et des Surroundingsound qnadriphoniqnes, I’angmentation 
de la largenr apparente des sonrces est nn critere de jngement qni a pins de poids qne le 
respect des differences avant-arriere. Cependant, I’analyse nous a revele, tout d’abord, 
que le poids relatif de ces distorsions dependait certainement de la familiarite de I’au- 
diteur avec I’ecoute « multicanal ». En effet, les travanx de Gnastavino et al. [Gna03] 
[GK04] (voir section 3.2.2) ont bien montre que des auditeurs non-specialistes, ayant 
une ecoute globale, s’attachaient plus a la sensation d’immersion et d’enveloppement 
dans la scene que des specialistes qui, ecoutant de fagon plus analytique, privilegiait 
la precision et la stabilite. Ainsi, pent-etre qne pour les memes raisons le gronpe d’ex- 
perts etait-il pins attache a la localisation de sonrces dans les sectenrs frontal et arriere, 
tandis que les non-experts etaient plus sensibles au non-respect de I’nnilateralite de la 
scene originale, qui etait ici une conseqnence directe de I’angmentation de la largeur 
de sonrce. Cela expliqnerait que ce groupe ait juge globalement les scenes stereopho¬ 
niques pins fidele que les scenes Surrounding Sound. Cependant, nous avons aussi pn 
remarqner nn effet significatif dn nombre de sources sur le classement de ces deux types 
de scenes. Le fait que cet effet soit globalement en faveur des Surrounding Sound est 
encourageant, pnisqn’ils sont plutot destines a la reproduction des sons d’ambiance, 
composes potentiellement d’nn nombre important de sources sonores . C’est jnstement 
I’nne des raisons ponr laqnelle nons avons preconise lenr emploi ponr la navigation dans 
les environnements de grande amplenr; ils permettent de creer des paysages sonores 
tres riches « a moindre frais ». En conclnsion, bien qne les conditions de I’experience 
devalorisent I’nsage des Surrounding Sound, celni n’est pas tellement remis en canse ici. 


scenes DirectiveSound de reference 
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Contributions 

Outre la revue de la litterature qui nous a permis de poser un regard critique sur les 
capacites representationnelles des indices de la localisation auditive, notre contribution 
porte sur deux axes principaux, imposes par deux ensembles de considerations indisso- 
ciables : la perspective du concepteur de logiciels et celle de I’utilisateur. 

D’un point de vue ttieorique et speculatif, nous avons tente d’anticiper, autant que 
faire se pent, les capacites d’un individu a localiser les sons dans I’espace, en situation 
de perception naturelle, d’une part, et virtuelle, d’autre part. Nous avons surtout tente 
de decrire les facteurs psychologiques qui devaient etre pris en consideration pour com- 
prendre la genese du jugement qualitatif. Nous sommes alors toujours restes vigilants 
an fait que les attributs perceptifs sont tout autant issus de processus cognitifs ascen¬ 
dants (on bottom-up) que de processus descendants (ou top-down). En consequence, 
notre demarche experimentale a ete le fruit d’un certain scepticisme face a I’idee encore 
communement repandue que la technologie est le moyen d’atteindre la perfection de 
I’experience illusoire, que Ton ne distinguerait plus de I’experience reelle. C’est I’une 
des raisons pour laquelle nous avons estime que I’apport des technologies audio 3D ne 
pourrait etre evalue qu’indirectement, par le biais de I’usage, de la meme fagon que la 
perception spatiale se jauge a I’aune de Taction qu’elle guide. 

Prenant la perspective du concepteur de logiciels, nous avons done tout naturel- 
lement adhere aux modeles de sonification par etapes, puisqu’ils nous a semble qu’ils 
permettaient de concilier, a la fois, les interets du concepteur et ceux de I’utilisateur. 
En effet, nous avons eu Toccasion d’illustrer de quelle fagon une forme Abstraction 
analytique pouvait etre mise a profit, d’une part pour la gestion des interactions dans 
I’interface {e.g. deplacements semi-automatises du point d’ecoute) et, d’autre part pour 
la creation de representations spatiales supposees plus adaptees a la tache de I’utilisateur 
{e.g. balises contextualisees). Sur ce point precis, notre contribution porte essentielle- 
ment sur Tadaptation d’un tel principe au cas particulier d’une interface de navigation 
dans un environnement sonore 3D. Cependant celle-ci est plus d’ordre theorique que 
pratique. En revanche, de fagon tres pragmatique, nous avons bien propose une solution 
au probleme de mise en oeuvre des Surrounding Sound, dans le cas d’une panoramisation 
par paires. Par la meme occasion, nous avons aussi propose une solution a la surcharge 


305 



306 


Conclusion generale 


inevitable des algorithmes de rendu sonore pour la navigation dans les grandes scenes. 

Prenant cette fois-ci la perspective de I’utilisateur, notre premiere contribution est 
d’ordre mettiodologique. En effet, I’originalite de notre demarche vient en partie de I’ap- 
proche globale de revaluation, portant sur les differentes dimensions de Vutilisabilite 
(efficacite, efficience et satisfaction). Ainsi, observant quel pouvait etre I’apport des 
technologies audio 3D sur plusieurs plans (perceptif, cognitif, ergonomique, etc.), nous 
avons pu nous rendre compte que les differences interaurales propres aux HRTF ne 
presentaient pas seulement un avantage en termes de qualite du rendu sonore. Nous 
avons constate que la synthese binaurale pouvait bien avoir a terme un effet positif 
sur V utilisabilite d’un dispositif sonore d’aide a la navigation dans un environnement 
virtuel construit. Dans un autre contexte, cette fois-ci, nous avons montre a quel point 
les effets de spatialisation sonore pouvaient etre deprecies par rapport a la stereopho- 
nie, si Ton se contentait d’une evaluation comparative plus typique d’un test d’ecoute. 
En particulier, nous avons remarque que I’angmentation de la largeur apparente des 
sources sonores pouvait etre pergue comme un facteur de degradation plus important 
que le non-respect des differences avant-arriere. Quand bien meme I’image spatiale etait 
globalement degradee par rutilisation d’un systeme quadriphonique, cela nous conforte 
dans I’idee que la notion de qualite d’un dispositif perd quelque pen de son sens, si 
celui-ci n’est pas evalue dans le contexte de son usage {e.g. le controle du deplacement 
du point d’ecoute). C’etait d’ailleurs le leitmotiv de notre premiere experience et, plus 
generalement, de notre approche de la perspective utilisateur. 


Limites et perspectives 

Notre approche presente les defauts de ses qualites : a vouloir trailer un probleme 
dans sa globalite, on passe necessairement a cote d’un grand nombre de « points de 
details », qui ne peuvent plus etre etudies precisement. C’est d’ailleurs un compro- 
mis qu’il est necessaire de trouver lors d’une etude d’ergonomie on plus generalement 
d’utilisabilite, entre les contraintes de validite externe et la necessite de conserver le 
plus grand controle sur les variables d’une experience. De, meme qui vent concilier les 
perspectives de Tutilisateur et du concepteur de logiciels est « tiraille entre le point de 
vue des psychologues et des ergonomes qui visent a developper des theories explicatives 
on predictives sur les interfaces nouvelles, et celui des informaticiens qui visent a definir 
des modeles d’architecture logicielle et des outils pour la realisation de telles inter¬ 
faces » (Niguay [Nig94]). Nos travaux de recherches presentent done un certain nombre 
de limites propres a notre demarche scientifique, auxquelles s’ajoutent celles qui ont ete 
mises en evidence a posteriori on qui relevent simplement de choix tres prosai'ques a 
priori. 

Les capacites representationnelles de la spatialisation sonore Tout d’abord, 
meme si nous avons tente de motiver le plus rigoureusement possible le cadre de notre 
etude, les conclusions que nous avons tirees, suite a I’examen des capacites representa- 
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tionnelles de la spatialisation sonore, n’en demeurent pas moins speculatives et n’ont pas 
tout a fait passe I’epreuve de rexperimentation. Or, peu d’etudes out tente de determi¬ 
ner directement ou indirectement, quelles pouvaient etre les limites, en terme d’usage, 
de la dimension spatiale du son. Meme si tout porte a croire que la spatialisation sonore 
joue plutot un role de facilitation, il aurait cependant pu etre pertinent d’evaluer verita- 
blement quelles sont les capacites des technologies audio 3D a representer des donnees 
non-spatiales. Nous aurions alors pris comme observables certains effets de memorisa¬ 
tion et d’apprentissage, puisque c’est justement sur ce point qu’elles semblent poser le 
plus de problemes. En outre, il aurait ete interessant d’evaluer les ameliorations que 
pouvait apporter I’emploi de metaphores spatiales, comme I’ont propose Walker et al. 
[WBMOl] {section 4-3.3.2). Meme si la spatialisation ne nous a pas semble adaptee 
pour la creation de signes arbitraires, tels que les earcons, elle le serait peut-etre beau- 
coup plus pour la creation de signes motives, a I’image des auditory icons. D’ailleurs, 
les reflexions de Lennox et al. [LMV99] [LMVOl] [LVMOl] [LM07] nous ont semble etre 
un bon point de depart pour aborder la problematique d’une forme d’« ecologie » de la 
spatialisation sonore. 

Contribution de la modalite auditive a la eognition spatiale Neanmoins, notre 
premiere experience a tout de meme ete I’occasion d’evaluer, d’une certaine fagon, les ca¬ 
pacites representationnelles de la spatialisation sonore, puisque nous avons tente d’eva¬ 
luer quelle pouvait etre la contribution des indices de la localisation auditive a la connais- 
sance spatiale. D’ailleurs, nous avons observe des performances relativement mediocres 
pour la memorisation de I’emplacement des cibles dans I’environnement et conclu qu’il 
ne fallait pas surestimer le role de la modalite auditive pour la cognition spatiale®. Ce¬ 
pendant, ayant remis quelque peu en cause le protocole experimental et notamment 
I’observation de la carte lors du rappel de I’emplacement des cibles, nous avons estime 
ne pas avoir aborde de fagon pertinente ce probleme. Or, nous avons quelqu’idee sur la 
fagon dont I’experience aurait pu etre amelioree afin d’evaluer I’habilete du systeme au- 
ditif pour I’acquisition de connaissances spatiales. Tout d’abord, plutot que le report ne 
se fasse sur une carte, peut-etre aurait-il ete plus judicieux de proposer aux participants 
de placer les cibles en ne representant que le centre de I’environnement (i.e. le point de 
depart) et leur orientation lorsqu’ils ont commence la navigation. Au moins, aurions- 
nous evite que I’observation de la carte ne participe a I’apprentissage. En outre, meme 
si nous avions pris le risque que le report soit quelque peu hasardeux, tant la memorisa¬ 
tion a semble etre une tache difficile pour les participants, nous aurions tout meme pu 
augmenter le « contraste » entre les balises decontextualisees et contextualisees. Peut- 
etre nous aurait-il fallu aussi proposer un environnement virtuel plus « ecologique », 
offrant a I’observateur les elements de structures fondamentaux, tels que ceux proposes 
par Lynch [Lyn60] (chemin, frontiere, districts, noeuds et points de repere), et laisser 
le joueur plus libre de ses mouvements. Cependant, nous aurions augmente conside- 
rablement le role de I’experience visuelle pour I’acquisition de connaissances spatiales 
et assujetti les performances de navigation aux capacites des participants a utiliser les 


®Du moins, pour un individu ne souffrant d’aucune deficience visuelle 
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peripheriques d’entrees pour deplacer la camera dans la scene (clavier et/ou souris). De 
plus, 11 aurait sans doute ete necessaire, dans ce cas, que I’environnement soit plus grand 
que celui que nous avons mis en oeuvre ici et realiser cette etude sur une duree beaucoup 
plus longue, afin qu’une representation mentale puisse se stabiliser en memoire. 

En fait, il nous aurait surtout fallu modifier la consigne et ne pas demander aux su- 
jets de trouver la cible le plus rapidement possible. C’est pent etre cette forme de pression 
temporelle^, qui doit etre remise en cause avant tout. Nous aurions effectivement pu lais- 
ser les participants fibres de leur navigation en imposant simplement une duree limite a 
leur exploration. En d’autres termes, il aurait fallu que la tache se concentre essentiel- 
lement sur la memorisation de la position des cibles. Maltieureusement, nous n’aurions 
probablement pas pu observer d’effet de nos conditions experimentales sur le temps de 
prise de decision a ctiaque intersection, puisque le choix des directions de navigation 
n’aurait plus ete un facteur de performance. En particulier, nous n’aurions sans doute 
pas pu observer d’effet du type de rendu sonore (binaural ou stereophonique) puisque 
la tache aurait ete essentiellement cognitive. Retrospectivement, il nous a peut-etre ete 
plus profitable que la tache prenne la forme d’une tache d’orientation, necessitant une 
localisation efficace, plutot qu’une veritable tache de navigation, necessitant I’elabora- 
tion de strategies qui guident les deplacements. 

Creation et evaluation de representations sonores multi-resolution L’usage 
de la modalite auditive dans les interfaces zoomables nous est apparu comme I’une 
des problematiques les plus interessantes que nous ayons abordees, tant il prefigure de 
nouveaux champs applicatifs pour les technologies de spatialisation sonore. En effet, la 
modalite auditive semble pouvoir jouer un role majeur dans les services de visualisa¬ 
tion cartographique modernes, tels que Google Earth ou le plus recent projet « Ville en 
3D » de Pages Jaunes. Sa capacite a renseigner sur I’activite d’un lieu, et par extension 
sur son identite, pourrait combler un vide que seule I’imagination peut combler dans les 
interfaces visuelles de navigation 3D. Or, nous regrettons quelque peu de ne pas avoir 
pu approfondir plus encore la question du contrepoint audiovisuel et celui du zoom se- 
mantique^. Bien que nous ayons presente un scenario d’usage des DireetiveSound et des 
Surroundingsound pour une complementarite a petite et a grande echelle, ainsi qu’un 
certain nombre de transformations qu’il etait possible d’appliquer pour modifier les pro- 
prietes de la representation sonore de I’espace, nous n’avons pu qu’emettre un certain 
nombre d’hypotheses qu’il nous faudrait approfondir et confronter a I’experience. En 
effet, de nombreuses questions se posent quant au role que peut jouer une representation 
sonore multi-resolution pour I’accessibilite d’un environnement virtuel lors d’une navi¬ 
gation en survol. Cependant, pour y repondre, la demarche est relativement complexe. 
En effet, il nous faut non seulement reflechir a la fagon dont ce type de representation 
sonore peut etre cree, mais aussi evaluer dans quelle mesure il permet a un utilisateur 
d’acceder plus rapidement a une information referencee dans I’environnement virtuel, 
de mieux connaitre I’espace qui y est represente ou, pourquoi pas, de lui offrir une 

^Qui n’a d’ailleurs pas ete ressentie comme telle par les participants, d’apres les resultats obtenus 
lors de I’auto-evaluation du NASA-TLX. 

®Transformations visant a pallier le probleme de la quantite d’informations sonores transmises. 
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connaissance qu’il peut mettre a profit durant son experience quotidienne. 


Le premier pas a franchir pour continuer nos travaux dans cette voie, consisterait 
done a developper une interface qui, a I’instar de I’application DataSplash de Woo¬ 
druff et al. [WLS98], permettrait d’assister la conception de representations sonores 
multi-resolution en proposant une variete d’« outils » de transformation d’une scene 
sonore {e.g. selection, agregation, etc.). Cependant, a la difference des representations 
visuelles, Vutilisabilite de representations sonores composees entierement de « primitives 
de synttiese » (i.e. mapping de parametres) est beaucoup plus improbable. Une approche 
ecologique semblerait plus adaptee pour des services de georeferencement se servant de 
maquettes de ville en 3D comme support. Or, pour qu’elle puisse etre mise en oeuvre, 
il faudrait resoudre certains problemes relatifs an choix du corpus sonore utilise {e.g. 
Quels types de tonalites, d' evenements on d'empreintes ?). Par exemple, il serait neces- 
saire de se demander comment creer des ambiances sonores urbaines (on sons de zone) 
suffisamment representatives, selon que I’utilisateur est familier on non avec I’environ- 
nement. Meme si I’ectiantillonnage du paysage sonore d’une ville necessite probablement 
un « niveau de granularite » relativement faible (en comparaison du paysage visuel®), 
pour qu’il atteigne un degre acceptable de credibilite, il pourrait tout meme se reveler 
utile de definir des categories d’ambiances reelles « generiques^^ ». A cela s’ajoutent 
encore les problemes relatifs an choix des « icones auditives » qui seraient a meme de 
representer les donnees elles-memes, non plus le contexte spatial dans lequel elles sont 
referencees {e.g. un certain type de commerce, de mode de transport, etc.) 

Une fois qu’une solution satisfaisante a ces nombreux problemes a ete trouvee, une 
seconde phase consisterait a proposer a un groupe de sujets, plus on moins experts en 
design sonore, de creer des representations sonores multi-resolution, a I’aide de cette 
« boite a outil », sous differentes contraintes {e.g. offrant un certain degre de comple- 
mentarite entre le point de vue et le point d’ecoute, une certaine conservation de la 
densite d’informations, etc.). Il s’agirait alors de definir la « forme » que doit prendre le 
paysage sonore a differentes echelles (on altitude de la camera), en appliquant le panel de 
transformations qui sont mises a disposition {e.g. le remplacement d’un son abstrait par 
un son ecologique, I’agregation des sons d’une zone, etc.). Ces representations sonores 
seraient ensuite evaluees afin de comparer V utilisabilite relative de chacune d’entre elles 
pour la realisation d’une tache de navigation dans une maquette de ville en 3D {e.g. 
recherche d’items, exploration, etc.). 

L’interface que nous avons developpee est encore tres loin d’etre la boite a outil que nous 
aimerions qu’elle devienne, puisque nos travaux n’ont constitue qu’une infime partie du 
projet plus vaste dont nous aimerions voir le jour. Dans un premier temps, nous nous 


®Par example, il est relativement fastidieux de prelever a I’aide de photographie, les textures qui 
seront utilisees pour les fagades des batiments. Quelques prises de son suffisent, la ou des dizaines 
de photographies sont necessaires. C’est plutot la diversification des paysages dans le temps {e.g. a 
differents moments de la journee, de la semaine) qui est difficile a prendre en compte. 

^°Les maquettes de ville en 3D utilisent souvent des textures generiques pour les fagades des batiments 
les plus communs. Seul un nombre limite d’edifices reconnaissables beneficient de texture strictement 
analogue (voir de modele 3D complexe). 
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etions donne pour seule contrainte, qu’elle permette de creer facilement le corpus sonore 
de revaluation subjective presentee ici. En d’autres termes, il nous suffisait qu’elle offre 
une implementation pertinente des Surrounding Sounds dans le cas d’une panoramisation 
par paires, et qu’elle permette de substituer les Directivesound d’une region donnee de 
I’espace par un unique SurroundingSound, afin de reduire le niveau de detail de la scene. 
Cependant, I’architecture et les fonctionnalites actuelles de I’interface permettrait deja 
d’experimenter la creation de representations multi-resolution et d’amorcer la premiere 
etape vers la conception d’une interface sonore zoomable. 
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Annexe A : Adaptation des balises 
contextualisees et 
decontextualisees 


Nous avions I’intention, initialement, d’ajouter un facteur supplement air e a I’expe- 
rience de navigation en vue subjective : I’adaptation de la representation spatiale en 
fonction de la presence, ou non, du joueur dans une zone. En effet, en s’appuyant sur 
les unites discretes^^ participant a la lisibilite de I’espace urbain, definies par Lynch 
[Lyn60], nous souhaitions, en plus des points de reperes sonores^^, que I’interface soit 
en mesure de rendre compte de I’existence de districts [i.e. les zones pour I’experience) 
structurant I’environnement explore. 



Fig. 16.1 - Adaptation de la representation sonore des informations de distance et de 
direction d’une cible, lorsque le joueur n’est pas dans une zone, (a) Les balises contex¬ 
tualisees indiquent le chemin a prendre pour se rendre vers la sortie la plus proche de 
la zone ou se trouve la cible. (b) Les balises decontextualisees indiquent la position du 
centre de la zone ou se trouve la cible. 


Le principe de V adaptation est inspire du « clustering de sources » que nous avons 
decrit section 2.2.1.1, sauf qu’il est motive, dans notre cas, par Vutilsabilite des balises 
sonores, plutot que par I’optimisation des algorithmes de spatialisation. Ici, c’est done 

Chemins, frontieres, districts, noeuds et points de reperes. 

soundmarks (i.e. les cibles pour I’experience), par analogie avec le terme « landmark » 
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I’organisation spatiale des cibles qui determine le regroupement. Ainsi, lorsque le joueur 
n’est pas dans une zone, les balises representent les informations de position et de direc¬ 
tion des zones et non cedes des cibles elles-memes. Comme I’indique la figure 16.1, une 
balise contextualisee indique alors le chemin le plus court vers la sortie la plus proche 
de la zone. Une balise decontextualisee, quant a elle, indiquera la position de son centre^^. 


Comme Darken et Sibert [DS96], nous suggerons qu’un environnement virtuel de 
grande taille devrait etre divise en plusieurs regions distinctes de tailles plus reduites. 
En effet, une telle organisation spatiale pourrait permettre a I’observateur/auditeur 
d’organiser mentalement son environnement en une liierarctiie spatiale propice a I’ela- 
boration des strategies guidant ses deplacements (ou way finding). Se rapprocher de la 
cible reviendrait alors a « descendre » les branches de I’arbre defini par cette hierarchie. 
Par exemple, dans I’environnement que nous avons congu pour I’experience de naviga¬ 
tion en vue subjective, les balises sonores s’adaptent au « niveau » auquel se trouve le 
point d’ecoute dans I’arbre, illustre Figure 16.2. 



Fig. 16.2 - Organisation hierarchique de I’environnement virtuel utilise pour I’expe- 
rience de navigation en vue subjective. 


- Lorsque I’auditeur est au niveau du noeud « Environnement » [i.e. dans aucune 
des zones), il n’entend que trois balises lui indiquant la position du centre des 
zones ou le chemin le plus court vers les sorties les plus proches, selon que les 
balises sont respectivement decontextualisees ou contextualisees (Figure 16.3). En 
effet, dans un premier temps, il n’est pas necessaire de percevoir la totalite des 
balises sonores, dont le nombre est potentiellement tres important si I’environ¬ 
nement est de taille consequente. Optimisant le nombre de balises utiles pour la 
navigation, la reduction du niveau de detail permet alors de rendre le paysage 
sonore plus « lisible », a condition de bien choisir les « balises-imposteur^^ », qui 
se substitueront aux balises d’une zone. 

- Enfin, lorsque I’auditeur penetre dans une zone, il entend les trois balises corres- 
pondant aux trois sites qui s’y trouvent ainsi que les deux balises correspondant 

^^Plus precisement, le barycentre. 

^"*11 coincide, dans ce cas, avec le point de vue {i.e. la camera) 

^®Par analogie avec les sources-imposteurs des algorithmes de gestion du niveau de detail. 
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Fig. 16.3 - Representation spatiale lorsque le point d’ecoute n’est pas dans une zone. 


aux antres zones (Figure 16.4). 

Environnement 
Zones 
Sites 

Balises 
Sites 1, 2,3 




Fig. 16.4 - Representation spatiale lorsque le point d’ecoute est dans une zone. 

Or, etant donne les conclusions que nous avons tirees de I’experience, I’introduc- 
tion d’un tel facteur n’aurait pas ete tres pertinent. D’une part I’environnement etait 
suffisamment petit et le nombre de cibles suffisamment faible pour qu’un tel dispositif 
ne soit pas veritablement utile. Pire, la « distorsion » des informations de distance et 
de direction aurait meme pu avoir un effet nefaste sur la navigation. Pour les balises 
contextualisees, V adaptation aurait contraint le joueur a passer par la sortie (d’une zone) 
la plus proche, avant de se rendre vers la cible, ce qui aurait eu pour consequence de 
rallonger considerablement le trajet parcouru. II en aurait ete de meme pour les ba¬ 
lises decontextualisees, guidant le joueur, dans un premier temps, vers le barycentre 
de la zone, potentiellement tres eloigne de la cible. Ainsi, le regroupement des cibles 
ne semble pas veritablement utilisable lorsque les deplacements sont contraints par des 
chemins predefinis, comme c’est le cas pour une navigation en vue subjective dans un 
environnement construit. En revanche, il pent se reveler beaucoup plus pertinent pour 
une navigation en survol. 
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Annexe B : Usages communs des 
interfaces zoomables. 


Le service Rennes Citevisions L’interface permet de naviguer dans la maquette 
virtuelle en 3D de la Ville de Rennes et de localise! notamment, differents organismes, 
soit par leur nom, soit par theme, soit par quartier^® (Figure 16.5). Les informations 
contextuelles {e.g. les sites culturels) et celles faisant veritablement I’objet de la re¬ 
cherche sont representees par des symboles et referencees dans une simulation vraisem- 
blable de I’espace reel. Certains edifices remarquables sont modelises plus precisement 
afin de faciliter le reperage dans cette ville virtuelle. 



Fig. 16.5 - Le projet Rennes Citevisions : representation d’informations georeferencees 
dans un espace virtuel 3D vraisemblable. (a) A petite echelle, seules les photographies 
aeriennes sont affichees et (b) a grande echelle, les photographies sont utilisees comme 
textures pour les maillages 3D des bailments. 


Le jeu Blaek & white 2 Suivant la tendance generate des jeux de strategie temps- 
reels, la representation de I’espace est une simulation vraisemblable d’un espace imagi- 

^®On peut aussi localise! n’importe quelle adresse rennaise ainsi que les stations de bus ou metro a 
proximites des adresses selectionnees. 


317 














318 


Annexes 


naire. Contrairement a ce qui se faisait auparavant dans la plupart des jeux de ce genre, 
les proportions des personnages, des nnites et des elements de decors sont parfaitement 
respectees. Cela vient dn fait qne ce type de jen donne nne grande importance a la 
micro-gestion et, de pins en plus, a I’action^^ : on pent saisir un personnage, le deplacer 
pour lui attribuer nne nouvelle fonction, arracher un arbre, I’utiliser pour accelerer la 
construction d’un batiment, etc. En outre, les concepteurs du jen ayant souhaite mini¬ 
miser les elements d’interface, I’information relative a I’etat du jen est integre dans le 
decor, dans la mesure du possible (Figure 16.6). Par exemple, les bailments necessaires 
an bon developpement de la ville sont representes sur nne plateforme an centre, la fonc¬ 
tion des habitants (reproducteur, bucheron, paysan, etc.) est indiquee par la couleur 
d’un halo lumineux, etc. Les informations plus precises {i.e. les statistiques concernant 
la ville et ses habitants) sont communiquees « a la demande », an moyen de bulles d’in- 
formations on de symboles {e.g. la productivite, le degre de satisfaction, etc.). Toutes 
ces informations ne sont disponibles qu’a nne echelle suffisamment grande. 



(a) (b) 


Fig. 16.6 - Le jen Black & White 2 : gestion de population dans un espace virtuel 3D 
vraisemblable. (a) A petite echelle un faisceau lumineux vertical indique la position des 
differentes cites, dont le champ d’action est figure par un contour de la meme couleur. 
A cette distance, seules les informations principales sont communiquees : le penchant a 
la bonte on a la mechancete et la position de la creature, (b) A plus grande echelle, on 
pent percevoir (in-game) certaines informations relatives a la fonction des habitants, a 
la productivite, etc. 


Le jeu Civilization IV La representation qui y est faite de I’espace etait, jusqu’a 
present, caracteristique du genre. An contraire de Black & White 2, I’objectif est plu- 
tot la macro-gestion d’une civilisation sur un territoire de grande etendue et sur nne 

serie « Black & White » est tout de meme atypique, ne serait-ce que par la fagon dont le joueur 
interagit avec I’environnement. 
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longue periode. L’accent etant mis sur la strategic et non I’action, cela justifie le fait 
qu’il se joue « an tour par tour » et, probablement, qu’il resiste encore an « tout 3D ». 
Ainsi, I’interface est congue de telle sorte, qu’une quantite suffisante d’informations soit 
communiquee a une plus grande echelle et que la representation visuelle soit la plus 
« lisible » possible. Lorsque la camera est a une tres haute altitude (Figure 16.7.a), 
seules les caracteristiques generates du terrain sont perceptibles (forme des continents, 
presence de vegetation, etc.). Les differentes cites sont alors representees par des la¬ 
bels indiquant leur nom, la civilisation a laquelle elles appartiennent et I’avancee de la 
construction en cours. Un petit nombre d’icones pent aussi indiquer la religion prati- 
quee, le degre de satisfaction des citoyens, etc. A une echelle plus petite (Figure 16.7.b), 
on pent constater que la representation spatiale n’a rien de vraisemblable. Malgre I’uti- 
lisation de modeles 3D, les unites, les ressources, les caracteristiques du terrain et toutes 
les caracteristiques d’une cite, pouvant renseigner de I’etat de la civilisation (culture, 
religion, technologic, armement, etc.), sont exagerement disproportionnees. C’est une 
sorte de zoom semantique sur les elements fondamentaux du gameplay. 



(a) (b) 


Fig. 16.7 - Le jeu Civilization IV : gestion d’une civilisation dans un espace dispro- 
portionne. (a) A petite echelle, les information essentielles sont communiquees de fagon 
tres « compacte ». (b) A grande echelle, les unites, les ressources, les caracteristiques 
du terrain et toutes les caracteristiques d’une cite, pouvant renseigner de I’etat de la 
civilisation, sont exagerement disproportionnees. 


Le service pages jaunes Enfin, les pages jaunes, a I’image des nombreuses repre¬ 
sentations cartographiques auxquelles nous sommes accoutumes^*, constituent le plus 
haut degre de simplification d’une representation spatiale, debarrassee de tout ce que 
I’on pourrait juger, an premier abord, de superflu, on simplement d’ornemental. Malgre 

A I’instar de Rennes citevisions, le service pages jaunes offre aussi la possibilite de naviguer dans 
une maquette 3D de certaines villes (Projet « Ville en 3D »). Cependant, ce n’est pas cela qui nous 
interesse ici. 
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I’apparente simplicite de telles applications, les representations visnelles y sont parfois le 
resnltat A algorithmes de generalisation tres complexes (voir Agrawala et Stolte [ASOl], 
ponr nn exemple de generalisation de carte rontiere), permettant d’optimiser la densite 
de I’information commnniqnee ponr nne echelle donnee. Dans le cas des pages jaunes, 
ne sont representes, a petite echelle, qne les grands axes rentiers, le nom des zones pe- 
ripheriqnes de la ville et la position de la gare ferroviaire (Fignre 16.8.a). A pins grande 
echelle, sont representes tontes les rnes, lenrs noms, et, a I’aide de symboles, nn certain 
nombre d’informations contextnelles, telles qne la presence d’nne station de metro on 
d’edifices remarqnables (Fignre 16.8.b). 



Fig. 16.8 - Le service pages jaunes : representation spatiale schematiqne optimisee. (a) 
A petite echelle, ne sont representes qne les grands axes rentiers, (b) A pins grande 
echelle, sont representes tontes les rnes, lenrs noms et nn certain nombre d’informations 
contextnelles. 











Annexe C : Fonctionnalites 
« secondaires » de I’application 


ZARA. 


L’application ZARA possede un certain nombre de fonctionnalites qni, bien qn’elles 
soient « secondaires », n’en sont pas moins indispensables a la creation d’nne scene 
sonore. Ponr faire Teconomie de digressions inntiles, nons ne les avons pas decrites 
lorsqne nons avons presente les principals fonctionnalites de I’interface {section 14 - 1 ), 
mais il est necessaire de les introdnire ici. 


Parametres 



Fig. 16.9 - Reglage des parametres de I’attenntation avec la distance ponr les Directi- 
veSound et les SurroundingSound : maxdistance , mindistance, rolloffscale et distance- 
factor (on Ref Distance). 


Comme il est illustre Figure 16.9, I’interface permet de regler independamment, 
pour les Directivesound et SurroundingSound, les parametres de I’attenuation avec la 
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distance, A{d) definie par : 


A(d) = 


_ distance factor x mindistance _ 

distance/actor x mindistance+rollo f f scale x {d—mindistance) 


L’application offre aussi la possibilite d’ajuster le niveau global (gain de 0 a -30 
dB) de tons les sons d’une zone [DirectiveSound et/ou Surrounding Sound) et de leur 
appliquer un filtrage passe-bas pour simuler un effet d’occlusion. Cela pent permettre, 
dans certaines occasions, de donner un sens an fait que Ton entende les sons des autres 
zones, surtout lorsque cohabitent plusieurs scenes d’interieur et d’exterieur. Par exemple, 
dans la scene de la Figure 14.2.b {section 14-1.1.)^ lorsque le point d’ecoute est dans 
le « bureau », I’auditeur entend les sons assourdis de 1’atelier; de meme pour les sons 
du « salon », lorsqu’il est dans la « cuisine ». En outre, il est plausible qu’il entende les 
sons provenant de I’exterieur. Par exemple, il pent entendre les sons de la « banlieue », 
lorsqu’il est dans le « salon » (on de la « ville », lorsqu’il est dans le « bureau »). Cepen- 
dant, les sons provenant de la « banlieue »ne sont probablement pas filtres de la meme 
fagon (du moins, pas autant) que les sons provenant de la cuisine, plus proches. Enfin, 
I’auditeur n’entendra peut-etre pas les sons de la « cuisine » on du « salon », lorsqu’il 
est dans la « banlieue » et encore moins lorsqu’il est dans la « ville ». En bref, pour 
chaque zone il est necessaire d’ajuster le filtrage applique a chacune des autres zones. 
Nous avons alors defini une matrice de parametres^® {Gain, CutOff}, etablissant les 
« interactions » entre zones. 



Fig. 16.10 - Interface (accessible par le bouton « Dsp ») permettant de regler le filtrage 
passe-bas des sons des zones, autres que celle on se trouve le point d’ecoute. 


^Matrice carree de dimension Nombrede zones x Nombredezc 
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Comme on pent le constater Figure 16.10, pour une zone donnee, I’interface (ac¬ 
cessible par le bouton « Dsp ») presente a I’utilisateur plusieurs groupes de sliders, 
permettant de regler le gain et la frequence de coupure des autres zones dans la scene. 
Ces reglages ne seront appliques que si le point d’ecoute se trouve dans cette zone. S’il en 
change, d’autres parametres seront appliques. Par exemple, comme il est illustre Figure 
16.11, si le point d’ecoute, passe de l’« atelier » an « bureau », le filtrage applique aux 
sons de la « ville » reste inchange. En revanche, comme on pent s’en douter, le « bu¬ 
reau » n’est plus filtre et !’« atelier » Test a son tour. Ainsi, pour eviter le passage trop 
brutal d’un jeu de parametres a un autre, le systeme precede par interpolation lineaire 
(on cross-fade) sur une duree variable (reglable an moyen de I’interface utilisateur, entre 
100 ms et 3 s). 


Zone du point d’ecoute 

i 



Ville 

Bureau 

Atelier 

Banlieue 

Cuisine 

Salon 

Ville 

X 

{g,fc) 

{rA) 

0 

0 

0 

Bureau 

0 

X 

(SA) 

0 

0 

0 

Atelier 

0 

{g,fc) 

X 

0 

0 

0 

Banlieue 

0 

0 

0 

X 

{g,fc) 

{g,fc) 

Cuisine 

0 

0 

0 

0 

X 

{g,fc) 

Salon 

0 

0 

0 

0 

{g,fc) 



Fig. 16.11 - Exemple de matrice de parametres pour le filtrage {g, fc} (gain et frequence 
de coupure) des sons d’une zone. 
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Annexe D : Contraintes relatives a 
la creation des sons pour et par 
I’application ZARA. 

Creation des fichiers audio associes aux DirectiveSound 

Nous avons mentionne, section 14-1-3, que les sons qui composent une scene sonore 
sont simplement joues en boucle. Or, tandis que certains sons d’arriere-plan {e.g. le 
son d’une riviere, ou d’une machine) peuvent etre audibles en permanence, d’autres 
types evenements sonores se doivent d’etre declenches de fagon plus sporadique. C’est 
le cas par exemple des actions humaines {e.g. la manipulation d’objets). Ainsi, que leur 
declenchement soit automatise par tirage aleatoire selon certaines contraintes ou deter¬ 
mine par un script quelconque, cela requiert des developpements qui auraient depasses 
quelque peu le cadre de notre etude. De plus il aurait fallu etre capable, lors de la crea¬ 
tion des Surrounding Sound (fonction d’exportation), d’enregistrer une sequence jouable 
en boucle sans probleme de raccord, ce qui aurait encore complexifie la tache. 

Or, notre objectif etant de nous focaliser sur le rendu des effets de spatialisation 
plutot que sur la creation de contenu, nous avons decide de simplifier cette phase hors 
contexte et, malgre tout, incontournable. Pour cela, nous avons « monte » differentes 
scenes sonores a I’aide d’un logiciel de creation audio multipiste en prenant un soin 
tout particulier a leur « mise en boucle ». Bien que les sons dont nous nous sommes 
servis soient d’origine tres diverses (certains sont des enregistrements d’actions isolees 
de leur contexte, d’autre des scenes deja riches en evenements sonores), nous avons fait 
en sorte d’associer a chaque piste un evenement identifiable et unique, a I’exception 
de quelques ambiances utilisees pour les scenes d’exterieur (notamment les rumeurs de 
la ville). Comme il est illustre Figure 16.12, des groupes de fichiers audio monopho- 
niques de tailles rigoureusement identiques ont ainsi ete crees en exportant simplement 
chaque scene sonore piste par piste. S’ils ne sont pas issus directement de prises de son 
multicanal, les SurroundingSound peuvent etre crees exactement de la meme fagon, en 
attribuant a chaque piste une position spatiale et en exportant le mixage sur autant de 
canaux que I’on desire. 


325 



326 


Annexes 


loop in loop out 



Scene sonore 


Fig. 16.12 - Creation des DirectiveSound en exportant piste par piste une scene sonore 
realisee a I’aide d’un logiciel de creation audio multipiste. 


La creation de SurroundingSound a I’aide de I’application 

ZARA 


La seconde contrainte est liee a la definition des SurroundingSound dans la descrip¬ 
tion de scene VRML. Rappelons tout d’abord, qu’au ctiargement de la scene, le systeme 
recupere I’ensemble des noms de texture de chacun des objets 3D pour determiner 
quelles sont les fictiiers audio a charger. Ceux-ci sont alors recherches dans un repertoire 
« courant » suppose contenir I’ensemble des sons requis pour le rendu de la scene et dont 
le chemin relatif (« ../../Media/Son ») est defini par une constante symbolique dans le 
programme. Ainsi, s’il existe dans ce repertoire un fichier audio multicanal portant le 
nom de la texture d’une zone, celui-ci sera charge et associe a un SurroundingSound. 
Or, lorsque Ton echantillonne la scene a I’aide de la fonction d’exportation, les fichiers 
audio multicanal nouvellement crees prennent eux aussi le nom de la texture de la zone 
a laquelle ils sont associes. Pour eviter tout conflit de nom de fichier, ceux-ci sont enre- 
gistres dans un repertoire different du repertoire courant, choisi par Lutilisateur lors de 
I’exportation. Etant donne que le fichier « .zar » reutilise le fichier VRML original pour 
creer I’organisation spatiale, cela nous evite de devoir modifier son contenu. Seul le che¬ 
min indiquant I’emplacement des fichiers audio correspondant aux SurroundingSound 
est modifie. En contrepartie, les evenements sonores du SurroundingSound original ne 
sont pas conserves a moins qu’ils soient eux aussi audibles lors de I’exportation. Comme 
il est illustre Figure 16.13, I’alternative suivante s’offre alors a Lutilisateur : 

- Soit, il exporte, pour chaque zone, le SurroundingSound et les DirectiveSound. 
C’est la seule fagon, dans I’etat actuel de I’application, de conserver les evenements 
sonores du SurrroundingSound an chargement du fichier « .zar ». En terme de 
gestion du niveau de detail, une telle representation sonore est tres compacte. 
Cependant, elle necessiterait d’annuler la contribution des DirectiveSound dans le 
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SourroundingSound nouvellement cree, si I’on souhaitait les reintroduire pour un 
controle individuel des sources sonores de premier plan. 

- Soit, il n’exporte que les DirectiveSound. C’est I’usage que nous avons fait de 
I’application, puisque nous nous interessons essentiellement a la substitution d’un 
ensemble de DirectiveSound par un SurroundingSound. Cependant, on ne pent 
plus faire de distinction semantique entre I’arriere plan et le premier plan sonore. 


1. Chargement du fichier VRML 




Fig. 16.13 - Alternative pour I’exportation de la scene VRML dans I’application ZARA. 
Soit I’utilisateur exporte, pour ctiaque zone, le SurroundingSound et les DirectiveSound, 
soit il n’exporte que les DirectiveSound. Une fois charge le fichier « .zar » dans I’appli- 
cation, il est possible de reintroduire les DirectiveSound decrits par la fichier VRML. 
L’interface possede done deux representations de la scene, plus ou moins redondantes, 
entre lesquelles elle pent alterner pour modifier le niveau de detail. 


Il manque done un troisieme cas d’usage qui est I’exportation des DirectiveSound 
seuls et la cohabitation, au chargement du fichier « .zar », de deux SurroundingSound : le 
SurroundingSound original porteur des evenements sonores d’arriere-plan et le Surroun- 
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dingSound nouvellement cree, porteur, quant a lui, des evenements sonores de premier 
plan (Figure 16.14). Meme si cette representation est moins compacte, elle offrirait la 
possibilite de reintroduire les Directivesound^ sans qn’il soit necessaire de snpprimer 
lenr contribntion dans nn SurroundindSound. 


Evenement sonore du 
SurroundingSound 


Evenement sonore , 
DirectiveSomd 


■ Exportation \ 
DirectiveSound 


Cbargement 

VILML 



Fig. 16.14 - Exportation des DirectiveSound seuls et cohabitation, an chargement dn 
fichier « .zar », de deux SurroundingSound. 


Annexe E : Consignes donnees aux 
participants pour revaluation du 
dispositif d’assistance a la 
navigation en vue subjective dans 
un environnement virtuel complexe 
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Duree de I’experience : 1 h 30 

Presentation 

L’experience a laquelle vous allez participer est un jeu de navigation dnrant leqnel 
vons allez devoir vons orienter en mettant a profit les informations sonores qni vons 
sont fonrnies. L’objectif est de tronver plnsienrs sonrces sonores cactiees dans nne ville 
« simplifiee » qni sont reparties dans trois zones distinctes, respectivement verte, ronge 
et blene. 

Lorsqne vons n’etes dans ancnne des zones, le sol est de conlenr grise : 



Lorsqne vons etes dans I’nne des trois zones le sol est de la conlenr de cette zone : 



Vons allez chercher chacnne de ces sonrces, les nnes a la snite des antres. A chaqne 
fois, vons entendrez le son recherche avant de commencer. 

Controle 

Vons n’ntiliserez qne les fleches dn clavier ponr vons deplacer. A nne intersection, il 
vons snffit d’appnyer nne senle fois snr la tonche « hant » ponr etre amene antomati- 
qnement jnsqn’a I’intersection snivante. Si vons vonlez faire demi-tonr lorsqne vons etes 
en deplacement, vons ponvez appnyer snr la tonche « bas » (nne senle fois snffit) ponr 
revenir a I’intersection precedente. Cette tonche n’est pas ntilisable lorsqne vons etes a 
rarret. 

Enfin, a chaqne intersection vons ponvez tonrner snr vons-meme en laissant votre doigt 
appnye snr les tonches « Ganche » on « Droite ». Lorsqne vons appnierez snr la tonche 
« Hant », vons vons engagerez dans la rne correspondant an mienx a votre orientation. 
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Vous disposerez, au prealable, d’une phase d’entrainement pour vous familiariser avec 
I’interface. 

Questionnaire 

Lorsque vous aurez trouve toutes les sources sonores, vous devrez tenter de les pla¬ 
cer sur une carte de la ville dans laquelle vous vous etes deplace. Ensuite vous devrez 
exprimer votre avis SUR LA NAVIGATION (et non snr le placement des sources 
sur la carte), a I’aide de trois questionnaires : 

- 1. Le premier vons demande d’evalner les 6 criteres definis ci-dessons snr nne 
echelle de 0 a 100, en positionnant les « slider » a la valenr de votre choix. II 
s’agit de la demande mentale, de la demande physique, de la demande 
temporelle, de I’effort, de la performance pergue et de la frustration (voir 
les definitions de ces termes). 



- 2. Le deuxieme vons demande de comparer deux par deux ces memes criteres, en 
choisissant, pour chaque paire, celui qui a le plus contribue a la charge de travail. 

- 3. Pour finir, 12 questions vous seront posees pour evaluer, sur une echelle de 1 a 
7, ce que vons avez ressenti d’une maniere pins generale dnrant I’experience. En 
particulier, il vons sera demande d’evalner votre engagement dnrant le jeu et 
votre immersion dans I’environnement virtue! sonore. Comme les criteres 
precedents, ces termes sont definis par la suite. 

Merci pour votre participation. Avez-vous des questions ? 
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DEFINITONS 


Pour revaluation de la charge de travail : 


Demande mentale 

Evaluez dans quelle mesure la taehe a demande une ae- 
tivite mentale et pereeptive (par exemple : penser, de¬ 
cider, calculer, se souvenir, regarder, ecouter, recher- 
cher, etc.). 

Demande physique 

Evaluez dans quelle mesure une activite physique vous 
a ete necessaire (par exemple : pousser, tirer, tourner, 
contrdler, activer, etc.) pour realiser la taehe. 

Demande temporelle 

Evaluez dans quelle mesure vous avez ressenti une 
pression temporelle, due a la cadence avec laquelle la 
taehe ou les elements de la taehe surviennent. 

Effort 

Evaluez dans quelle mesure vous avez eu besoin de tra- 
vailler (mentalement et physiquement) pour accomplir 
votre niveau de performance. 

Performance pergue 

Evaluez dans quelle mesure vous pensez avoir reussi 
dans I’accomplissement de I’objectif qui vous etait fixe, 
ou dans quelle mesure vous etes satisfait de votre per¬ 
formance. 

Frustration 

Evaluez dans quelle mesure, durant la taehe, vous vous 
etes sentipeu sur(e), decourage(e), irrite(e), stresse(e) 
et gene(e) ou, au contraire, sur(e), gratifie(e), re- 
laxe(e), etc. 


Pour le questionnaire de ressenti : 


Engagement 

Evaluez dans quelle mesure vous vous etes senti(e) 
concentre (e) durant Vexperience et implique(e) par la 
taehe que vous deviez realiser.. 

Immersion 

Evaluez dans quelle mesure, durant la taehe, vous vous 
etes senti(e) present(e) dans I’environnement virtuel 
sonore (i.e. plus ou moins « dans le jeu »), et dans 
quelle mesure, les consequences sonores (les modifica¬ 
tions du son) de vos actions (rotation, deplacements,E) 
vous ont semble naturelles et intuitives. 






Annexe F : Consignes donnees aux 
participants pour revaluation 
preliminaire a revaluation des 
Surrounding Sound 
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Duree de I’experience : 30mn 


Presentation 


Vous allez ecouter successivement 13 scenes sonores. Ces scenes ont ete realisees a 
I’aide d’un logiciel de creation audio multipistes, dont une capture d’ecran est presentee 
ci-dessous. 



Fenetre 

d’Mition: 

Fonnes 
d’onde des 
fichiers 
audio de 
chaque 


Fenetre de 
misage: 


Reglage des 
paramtees 
de chaque 
piste 


Pour creer une scene sonore, on insere un fichier audio sur chaque piste. Le contenu 
de ces sons est potentiellement tres varie. II pent aussi bien s’agir d’une simple action 
(par exemple, un claquement de porte on un homme qui parle), qu’une ambiance com- 
posee de nombreux evenements (par exemple, une fete foraine). 

Pour chaque piste, il est possible de regler un certain nombre de parametres, notam- 
ment le volume et la position spatiale, grace a la fenetre de mixage. L’element d’interface 
permettant de regler la position est presente ci-contre. II prend la forme d’un carre, dont 
le centre symbolise la position de I’auditeur. On pent y deplacer un point bleu, sym- 
bolisant position du son dans I’espace. En realite, seul I’azimut ? du point est pris en 
compte. Pour toutes les scenes que vous aller ecouter, une unique position 
spatiale a ete attribuee a chacune des pistes. 
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Position 
d j son 
dr-> 
I’es^ace 



La tache 

Vous allez devoir deviner, pour chaque scene que vous ecouterez, le nombre de pistes 
utilisees en essayant de vous fonder sur le « nombre de positions spatiales » que vous 
percevez. Pour cela vous utiliserez I’interface de test, dont une capture d’ecran est 
presentee ci-dessous. 



BuUe 

d’information 
Curseur de rqxtrt 
du nombre de 
positions spatiales 
per^ues 

Lecture/Airet de la 
sctee sonore 

Miseaibouclede 
la lecture 

Dft)ut et fin de la 
boucle 
Scene sonore 
suh'ante 


Vous pourrez utiliser a loisir les elements de I’interface pour jouer en boucle (ou 
non) tout ou une partie de la scene sonore. Vous utiliserez le curseur pour reporter 
le nombre de positions spatiales que vous percevez. Lorsque que vous le deplacez, une 
« bulle d’information » vous indique la valeur du curseur. Celle-ci est comprise entre 
1 et 10. Lorsque vous etes stir de votre choix, vous cliquerez sur le bouton « Next » pour 
ecouter la scene sonore suivante. La fenetre de confirmation suivante apparaitra : 
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Really want to move on? 



Vous devrez cliquer sur « OK » pour continuer ou « CANCEL » pour annuler le 
passage a la scene suivante. Une fenetre vous indiquera, a la fin, que le test est termine. 

Installation 

Pour une ecoute optimale, il est fondamental que votre tete soit positionnee au 
centre du carre de haut-parleur et qu’elle soit bien orientee devant vous (face a I’ecran), 
tel qu’il est indique sur la figure suivante : 


r 





V 4 


Pour nous assurer que votre tete sera bien positionnee tout au long de I’experience, 
vous devrez I’installer dans I’appuie-tete que nous avons confectionne a cette occasion. 


Merci de votre participation. Avez-vous des questions ? 





Annexe G : Consignes donnees aux 
participants pour revaluation des 
S urroundingS ound 
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Duree de I’experience : 2h 

Presentation 

L’objectif de ce test est d’evaluer la « degradation » d’une scene sonore de reference. 
Les criteres sur lesquels vous devez fonder votre evaluation sont les suivants : 


- Modification de la position spatiale : certains sons de la scene peuvent chan¬ 
ger position par rapport a la scene de reference 

- Modification du timbre : dans une direction donnee, une scene sonore pent 
paraitre plus on moins grave/aigu par rapport a la scene de reference. 

- Modification du niveau sonore : dans une direction donnee, le volume d’une 
scene pent paraitre plus on moins fort par rapport a la scene de reference. 

Le test s’effectuera en 3 sessions de 32 evaluations (dont 8 evaluations d’entraine- 
ment). A chaque fois, vous allez devoir classer 4 scenes de telle sorte que la scene la plus 
degradee regoive la note plus faible (1). Parmi I’une de ces 4 scenes, sera cachee la 
reference. Elle devra done recevoir la note la plus importance (4). Si vous ne percevez 
pas de difference entre deux scenes, il est possible de leur attribuer la meme note. 

L’interface 

Pour revaluation, vous utiliserez I’interface, dont une capture d’ecran est presentee 
ci-dessous. 



• Curseur de 
report de la note 

• Bouton de 
selection du 
stimulus 

• Lecture/Arret 
de la scene 
selectionnee 

• Mise en boucle 
de la lectme 

• Debut et fin de 
la boucle 

• Comparaison 
suivante 
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Vous pourrez utiliser a loisir les elements de I’interface pour jouer en boucle (ou 
non) tout ou une partie de la scene sonore. Vous utiliserez le curseur pour noter les 4 
scenes sonores a evaluer. Lorsque que vous le deplacez, une « bulle d’information » vous 
indique la valeur du curseur. Celle-ci est comprise entre 1 et 4. 

Vous pouvez passer d’une scene a une autre en cliquant sur le bouton en dessous du 
curseur correspondant (« Ref » pour la reference, « 1 » pour le son 1, « 2 » pour le son 2, 
etc.). Pour simplifier I’ecoute comparative, il est conseille d’utiliser les touches du pave 
numerique. La touche « 0 » correspond a la reference, la touche « 1 » au son 1, etc. La 
barre d’espace pent, elle aussi, etre utilisee pour jouer et arreter la scene selectionnee. 
Enfin, lorsque vous avez fait votre choix, vous cliquerez sur le bouton « Next » (ou la 
touche « Entree ») pour ecouter la scene sonore suivante. La fenetre de confirmation 
suivante apparaitra : 



Vous devrez cliquer sur « OK » pour continuer ou « CANCEL » pour annuler le 
passage a la scene suivante. Une fenetre vous indiquera, a la fin, que le test est termine. 

Installation 

Pour une ecoute optimale, il est fundamental que votre tete soit positionnee au 
centre du carre de haut-parleur et qu’elle soit bien orientee devant vous (face a I’ecran), 
tel qu’il est indique sur la figure suivante : 





^ 4 


Pour nous assurer que votre tete sera bien positionnee tout au long de I’experience, 
vous devrez I’installer dans I’appuie-tete que nous avons confectionne a cette occasion. 


Merci de votre participation. Avez-vous des questions ? 
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Allocentrique Du grec alios, « autre ». Une perspective allocentrique offre un cadre 
de reference centre sur renvironnement. 

Analyse de scene auditive D’apres Bregman [Bre94b] [Bre94a], trois processus sont 
mis en oeuvre dans la decomposition des melanges auditifs par I’auditeur humain : 

- la reconnaissance automatique : activation purement automatique de schemas ap- 
pris. Par exemple, « entendre son nom » etant un schema se trouvant dans un 
etat de haute potentialite, I’activation se produirait chaque fois que le son pergu 
correspond, meme approximativement, a la definition acoustique. 

- la reeonnaissanee volontaire : utilisation volontaire de schemas. « D’une maniere 
generate, chaque fois que I’ecoute cherche a se focaliser sur certains sons on cer- 
taines classes de sons, elle utilise un critere de reconnaissance des cibles » [Bre94b]. 

- V analyse primitive de seene auditive : methodes generates de partition d’une mix¬ 
ture sonore en source en sources acoustiques distinctes, utilisables prealablement 
a toute connaissance specifique des sons importants de I’environnement. 

Analyse de variance (ANOVA) D’une maniere generate, I’objectif d’une analyse 
de variance vise a tester les differences significatives entre les moyennes. Ce nom provient 
du fait que pour tester la significativite statistique entre des moyennes, nous devons en 
fait comparer (c’est-a-dire, analyser) les variances. 

Analyse primitive de scene auditive Voir Analyse de seene auditive. 

Azimut L’azimut est I’angle horizontal entre la direction d’un objet et une direction 
de reference. 

Cadre de reference Designe la maniere dont une carte ou une representation spatiale 
est structuree et dont les representations spatiales sont encodees. 

Coefficient d’intercorrelation La fonction d’intercorrelation entre deux signaux 
x{f) et y{t), notee Tjxy{T), mesure la correlation entre le signal x{f) et la version decalee 
y{t-\-T) du signal y{f). Elle est donnee par : 

^xy{T) = y{t + T)x{f)dt 
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Definit dans le cas stationnaire, le coefficient d’intercorrelation correspond a une 
fonction d’intercorrelation reduite : 



expression dans laquelle nix, my, Ox et ay designent les moyennes et ecarts-type des 
signaux x et y. 

II vient Pxyi^) = 0 Vr si les signaux x et y sont totalement independant et \pxy{T) \ = 1 
si x{t) et y{t + r) sont totalement dependants. 

Contingences sensorimotrices D’apres Poudade et al. [PLP06] « la theorie des 
contingences sensorimotrices a ete introduite par O’Regan et Noe [ONOl]. Cette theorie 
reintegre Taction et le stimulus physique an coeur de la perception, en posant comme ex¬ 
plication des sensations les proprietes de la dependance sensorimotrice (la relation entre 
les ordres moteurs et le retour sensoriel) plutot que les entrees sensorielles seules, qui 
sont le resultat d’une acquisition purement receptive. Suivant cette theorie Philipona et 
O’Regan [PO05] ont montre avec un modele appauvri du monde qu’il est possible pour 
une entite d’experimenter seule une loi sensorimotrice impliquant des codes sensoriels 
et des moteurs inconnus, d’extraire un ensemble de proprietes de cette loi qui soient 
independantes de ces codes et qui refletent done des proprietes ’objectives’ de I’environ- 
nement, comme son nombre de dimensions. Ainsi done, le resultat est une perception 
a la fois incarnee, puisqu’elle depend de Texperience sensorimotrice sans pour autant 
dependre de I’ordre moteur. » 

Contralateral Du cote oppose. 

Dichotique (ecoute) L’ecoute dichotique consiste a placer un participant en situa¬ 
tion d’ecoute an moyen d’un casque stereo dans lequel on diffuse des signaux sonores 
qui peuvent etre differents d’une oreille a Tautre. 

Egocentrique Du latin ego, « moi ». Une perspective allocentrique offre un cadre de 
reference centre sur I’individu. 

Facteur experimental Voir Psychologic experimentale 

Flot optique Champ de mouvement apparent. Le flot optique est un champ de de¬ 
placement visuel qui permet d’expliquer des variations dans une image animee en terme 
de deplacement de points images. 

Holistique Du grec holos, « le tout ». Qui releve de Vholisme, doctrine on point de 
vue qui consiste a considerer les phenomenes comme des totalites. 

Image Si ce n’est une image mentale, le terme fait reference a un percept (voir la 
definition du terme percept). 
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Ipsilateral Du meme cote. 

Manipulation directe La manipulation directe est une technique d’interaction in- 
troduit par Shneiderman [Shn83], dont les principes peuvent etre enonces comme suit : 

- Representation continue des objets d’interet; 

- Actions physiques sur les objets plutot que syntaxe complexe; 

- Operations rapides, incrementales et reversibles dont I’effet sur les objets d’interet 
est immediatement visible; 

- Approche en couches ou en spirale qui permet une utilisation avec un minimum 
de connaissances. 

Modalite (1) D’apres Nigay et Coutaz [NC96], une modalite est assimilee, au sens 
large, a une technique d’interaction, une maniere d’interagir avec le systeme. « Comme 
le concept de media, le terme recouvre differents niveaux d’abstraction : les expressions 
’modalite clavier’, ’modalite langue naturelle’, ou encore ’modalite parole’, se cotoient 
frequemment dans la litterature courante. En conception d’interface, il convient cepen- 
dant d’observer davantage de rigueur ». 

- « Les concepteurs d’interfaces (et notamment les ergonomes et les psychologues) 
associent la modalite aux capacites de perception du sujet humain mais aussi a 
ses facultes de comprehension. Bernsen [Ber94] utilise le concept de media pour 
traduire le niveau perceptuel. Dans sa theorie des modalites pures, il voit dans le 
concept de modalite, un systeme representationnel de I’information : un graphe, 
un texte, etc » (d’apres Nigay et Coutaz [NC96]). 

- « Pour les concepteurs de logiciel, la modalite est liee au contenu et a la nature des 
informations que le systeme est capable de trailer. Par exemple, Martin [Mar95] 
definit une modalite comme un processus (informatique) d’analyse ou de synthese 
defini sur des ensembles de donnees d’entree et de sortie. Nous voyons dans cette 
definition une traduction informatique des concepts de contenu et de nature de 
I’information : le processus d’interpretation est utile a I’obtention d’un contenu 
(analyse) ou a la production d’un contenu (synthese) tandis que la nature de 
I’information vehiculee se definit par le type des ensembles de donnees d’entree et 
de sortie » (d’apres Nigay et Coutaz [NC96]). 

Modalite (2) Voir Psychologic experimentale 

Monaurale / Binaurale (ecoute) Lorsqu’on parle d’ecoute monaurale, on evoque 
les elements qu’une oreille seule pent percevoir. L’ecoute binaurale est celle qui fait 
appel aux deux oreilles. En effet, certains elements ne sont perceptibles qu’au travers 
d’une comparaison des informations arrivant a I’une et I’autre oreille {e.g. les indices 
interauraux de phase et d’intensite). 


MUSHRA (Multiple Stimulus with Hidden Reference and Anchors) Me- 

thode de test en « double aveugle, stimulus multiples, reference et reperes caches ». 
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Cela signifie que pour realiser ces tests, les auditeurs sont invites a ecouter au rythme et 
dans I’ordre de leur choix (avec toute la latitude necessaire pour affiner leur jugement) 
des sequences audio et a etablir, par comparaison des unes avec les autres, une nota¬ 
tion. Parmi ces sequences figurent egalement des sequences de reference, sequence de 
tres bonne qualite (reference cachee) et sequence(s) volontairement tres degradee(s) par 
exemple avec des filtres passe bas qui limitent la bande passante a quelques kHz (reperes 
caches) et qui permettront une verification ulterieure de la coherence des reponses. Ces 
differentes sequences ne sont pas identifiees (d’ou le terme utilise de test en aveugle) de 
telle sorte que I’auditeur ne connait pas le statut de la sequence audio qu’il est en train 
d’ecouter. Le CD audio qui n’utilise pas de dispositif de compression des donnees et est 
repute comme offrant une tres bonne qualite sonore sera souvent utilise comme element 
de reference dans les documents presentes pas les industriels. 


Pan-pot Contraction du terme anglais panoramic potentiometer, designant le controle 
rotatif present sur une table de mixage, permettant d’ajuster le niveau relatif d’une 
source sur les canaux droit et gauche (et done de controler la position apparente de la 
source entre les deux haut-parleurs correspondants). Le pan-pot d’intensite est de loin le 
plus represente, d’autant qu’il est plus facile a realiser avec des techniques analogiques. 


Paradigme d’interact ion Un paradigme d’interaction est un ensemble coherent 
de techniques d’interaction qui cooperent de fagon etroite, ou qui reposent sur les 
memes principes techniques ou conceptuels. A titre d’exemple, le paradigme d’inter¬ 
action WIMP (Windows, Icons, Mouse, Pull-down menus^°) regroupe des techniques 
comme le pointage et les menus. Quand au paradigme de I’interaction bimanuelle, il 
designe des techniques d’interaction exploitant I’usage simultane des deux mains.iSyn. 
Style d’interaction. 

Percept Objet de la perception, sans reference a une chose en soi (oppose a concept). 
Syn. Image {e.g. image sonore ou auditive). 

Paysage sonore Traduction du terme soundscape, il est introduit par Schafer [Sch93] 
pour designer un environnements sonore dans lequel 1’accent est mis sur ce qui est 
pergu et compris par un individu ou une communaute. Il depend done de la relation 
entre I’individu et I’environnement. Le terme pent designer les environnements reels ou 
les constructions abstraites telles que les oeuvres musicales ou les montages sur bandes 
consideres alors comme des environnements artificiels. L’etude systematique des rela¬ 
tions entre les humains et les environnements sonores se nomme ecologie du paysage 
sonore {soundseape ecology), tandis que la creation, 1’amelioration ou la modelisation de 
n’importe quel environnement est une question de design de paysage sonore {soundscape 
design). 


henetres, icones, souris, menus deroulants 
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Psychologie experimentale (methodologie) Experimenter consiste a faire varier 
les elements constitutifs d’une situation dans le but de provoquer un phenomene et 
de mesurer son evolution. II faut pour cela definir les facteurs experimentaux qui vont 
conditionner 1’apparition du phenomene etudie et provoquer des modifications du com- 
portement. On definit ainsi les variables independantes (VI) de I’experiences qui peuvent 
prendre differentes modalites. Les variables dependantes (VD) sont celles qui dependent 
des variables independantes. 

Exemple : 

Etudier I’effet du lien semantique entre les mots. Materiel utilise : 10 paires de mots 
sont relies semantiquement et 10 autres paires ne le sont pas. 


Variables independantes (VI) : 


Variables dependantes (VD) : 


TROUSSE - CRAYON 
DOCTEUR - INFERMIERE 


GRENOUILLE - BID ON 
TABLE - IMMEUBLES 


On mesure le temps de reponse 


Qualia Proprietes de I’experience sensible par lesquelles « cela fait quelque chose de 
percevoir ceci ou cela » (couleur, son, etc.). Ce sont done des effets subjectifs ressentis 
et associes de maniere specifique aux etats mentaux : 

- experiences perceptives; 

- sensations corporelles (douleur, faim, plaisir, etc.); 

- passions et emotions. 

Realite augmentee Par systeme de realite augmentee on entend un systeme (au 
sens informatique) qui rend possible la superposition d’un modele virtuel 3D ou 2D a la 
perception (visuelle, auditive, etc.) que nous avons naturellement de la realite et ceci en 
temps reel. D’apres Milgram et Kishino [MK94], le concept (Venvironnement de realite 
augmente pent etre place quelque part le long d’un « continuum de virtualite » {vituality 
eontinuum), entre V environnement reel et V environnement purement virtuel. Les auteurs 
definissent ainsi le terme plus generique de « realite mixte », qui sous-entend differents 
degres de fusion des mondes reels et virtuels (Figure 15). 

Reduite / ordinaire (ecoute) Terme introduit par Schaeffer [Sch66], « I’ecoute 
reduite est I’attitude d’ecoute qui consiste a ecouter le son pour lui-meme, comme objet 
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■ Mixed Reality(MR) 


Fteal Augmented 
Envir on ment Reality (AR) 


Augmented Virtual 

VirtudityCAV) Environment 


Virtuality Continuum (VC) 


Fig. 15 - Continuum de virtualite (d’apres Milgram et Kishino [MK94] 


sonore en faisant abstraction de sa provenance reelle on supposee, et du sens dont il 
pent etre porteur. Plus precisement, elle consiste a inverser cette double curiosite pour 
les causes et le sens (qui traite le son comme un intermediaire vers d’autres objets vises 
a travers lui) pour la retourner sur le son lui-meme. C’est I’evenement que I’objet sonore 
est en lui-meme (et non auquel il renvoie), ce sont les valeurs qu’il porte en lui-meme 
(et non dont il est le support) que vise, dans I’ecoute reduite, notre intention d’ecoute 
[...]. An contraire, dans I’ecoute ordinaire, le son est traite comme vehicule » (d’apres 
Chion [Ctii95]). 

Schema Voir Analyse de scene auditive. 

Site Le site on Tangle de site est Tangle entre le plan horizontal et la droite allant d’un 
appareil vers un objet vise au-dessus de Thorizon. Get angle est compte positivement 
quand Tobjet repere est au-dessus du plan horizontal indique, negativement dans le cas 
contraire 

Sonie La sonie est Tequivalent sensoriel de Tintensite physique d’un son. C’est done 
Tintensite telle qu’on la pergoit, on mieux, telle qu’on la ressent. La sonie est par 
definition une fonction du niveau acoustique, mais elle depend aussi d’autres facteurs 
(la frequence du signal, son timbre, sa duree, etc.). La sensation de niveau ne croit pas 
lineairement avec le niveau physique. 

Pour exprimer lineairement la sonie, une autre unite a ete introduite : le sone. L’echelle 
des sones est construite de telle sorte qu’un son de 2 sones semble deux fois plus fort 
qu’un son de 1 sone. On attribut arbitrairement la valeur de 1 sone a un son pur de 1 
kHz qui possede un niveau physique de 40 dB. 

L’experience montre que la sonie double a chaque fois que le niveau augmente de 10 
dB. Si la sonie d’un son de 40 dB est de 1 sone, elle est de 2 sones a 50 dB, de 4 sones 
a 60 dB, etc. 

Speech Reception Threshold (SRT) Rapport signal sur masque (en dB) neces- 
saire pour atteindre en moyenne 50% d’intelligibilite d’une phrase dans un fond sonore 
masquant (bruit, phrase concurrente,...) 
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Systeme d’information (SI) Un systeme d’information represente I’ensemble des 
elements participant a la gestion, an stockage, an traitement, an transport et a la dif¬ 
fusion de I’information an sein d’une organisation. 

Systeme d’information geographique (SIG) Un systeme d’information geogra- 
phique (SIG) est un outil informatique permettant d’organiser et presenter des donnees 
alphanumeriques spatialement referencees, ainsi que de produire des plans et cartes. 
Ses usages couvrent les activites geomatiques de traitement et diffusion de I’informa- 
tion geographique. La representation est generalement en deux dimensions, mais un 
rendu 3D on une animation presentant des variations temporelles sur un territoire sont 
possibles. 


Validite externe Capacite d’une etude a produire des resultats generalisables a 
d’autres populations on a d’autres situations que celle qui est etudiee. 

Variable dependante Voir Psychologic experimentale 

Variable independante Voir Psychologic experimentale 
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(on Surrounding Sound) et des sources ponctuelles (on Directives ound), 
ainsi que des zones de transition pour I’interpolation (adapte de Viaud- 
Delmon et al. [VDWS+06]).224 

13.4 Creation d’un paysage sonore pour la navigation dans un environnement 

virtuel a petite echelle, lorsque le point de vue et le point d’ecoute sont 
complementaires. Chaque zone est potentiellement composee d’un Sur- 
roundingSound et d’un certain nombre de Directives ound. Elies sont mu- 
tuellement exclusives, car seuls les evenements sonores de la zone on se 
trouve le point d’ecoute sont audibles.225 

13.5 Simulation de I’effet d’eloignement d’un groupe de sources sonores grace 
a la distorsion de perspective d’un SurroundingSound. An dela d’une cer- 
taine distance, on pent envisager de le remplacer par unique DirectiveSound.226 


13.6 Creation d’un paysage sonore pour la navigation dans un environnement 

virtuel a grande echelle, lorsque le point de vue et le point d’ecoute sont 
complement aires. Un certain nombre de partitions spatiales, selectionnees 
selon certains criteres de priorite, deviennent audibles.228 

13.7 Exemple de zoom semantique en fonction du changement d’echelle, pour 
un point d’ecoute et un point de vue complement air e : cross-fade entre 

les SurroundingSound du contexte et le SurroundingSound du focus. . . 229 

13.8 Extraction d’une organisation thematique et spatiale pour V abstraction 

analytique .230 

13.9 (a) et (b) Selection : creation d’un sous-groupe dans I’organisation the¬ 

matique on spatiale. (c) Agregation : remplacement d’un sous-groupe de 
I’organisation spatiale par un seul element.231 

13.10Illustration d’un usage conjoint des SurroundingSound et des Directive- 

Sound pour la representation sonore d’informations relatives a la « carte » d’un 
Jen {Civilization IV) .233 


13.110perateurs de selection dans I’Abstraction de Sonification. (a) Utilisation 
des parametres definis par le modele de I’emetteur (source ponctuelle on 
champ sonore) : une entite est inaudible an dela d’une distance d. (b) 
et (c) Utilisation des parametres definis par le modele du recepteur (le 
point d’ecoute) : une entite est inaudible si elle n’est pas a I’interieur 
du « champ de perception » (cercle de rayon R on secteur angulaire 


d’orientation 9 et d’angle fl).234 

13.12Modele simplifie de I’interface de creation de scene sonore interactive. . . 236 
13.13Capture d’ecran de I’interface developpee.236 


14.1 Exemple de description d’une scene elementaire composee de six Direc- 
tiveSound et d’un SurroundingSound. Cette scene sonore est un micro- 
paysage dont les limites sont donnees par les dimensions de I’objet parent. 240 
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14.2 Exemples de scene sonore decrite a I’aide de 3DS max : juxtaposition 

de plusieurs zones (a) an meme niveau hierarchique et (b) a des niveaux 
hierarchiques differents.241 

14.3 Exemple de rotation d’un Surrounding sound 4 canaux, pour un systeme 

de diffusion quadriphonique (haut-parleurs espaces regulierement de 45 °). 242 

14.4 Distorsion de perspective par « homothetie angulaire » (fonction de spread), 


de la « fermeture » a !’« ouverture » totale.243 

14.5 Variation apparente d’azimut des sources ponctuelles d’une scene sonore 

composee uniquement de Directivesound .243 

14.6 Mise en oeuvre des SurroundingSound par I’utilisation de haut-parleurs 

virtuels positionnes en cercle dans la scene.244 

14.7 Les variables de la mise en oeuvre des SurroundingSound : (a) le rayon du 
cercle de haut-parleurs virtuels et (b) I’application individuelle on globale 

de I’attenuation du champ sonore avec la distance.244 

14.8 Fenetre de dialogue permettant de choisir, an lancement du programme, 

la configuration de haut-parleurs {i.e. le nombre de canaux du bus de 
sortie) ainsi que les drivers de lecture et d’enregistrement.245 

14.9 Fonction d’enregistrement libre de I’application ZARA. Si Tutilisateur 

ne saisit pas une duree (en ms) avant de lancer I’enregistrement, celui-ci 
continue jusqu’a ce qu’il appuie de nouveau sur le bouton « Rec Start » (de- 
venu « Rec Stop » apres le lancement de I’enregistrement).246 


14.10Creation d’une scene sonore sans organisation spatiale prealable. (a) Pla¬ 
cement aleatoire des DirectiveSound sur un plan aux dimensions fixes et 
echantillonnage 3x3. (b) Chargement du fichier « .zar », cree a I’expor- 
tation de la scene aleatoire, permettant une double representation de la 
meme scene : a I’aide de DirectiveSound et/ou de SurroundingSound. . . 247 

14.11Diagramme UML simplifie des classes principales de I’interface.248 

14.12Illustration de la procedure d’initialisation de I’application ZARA et de 

la gestion des evenements de I’interface.249 

14.13Arborescence des objets 3D de la scene (instance de la classe T_ VRMLNode) 

extraite de la scene decrite par le fichier VRML.250 

14.14Creation du premier element de I’organisation spatiale {T_ Spatial Area), 
auquel on associe un « channel group », sur lequel est branche les « chan¬ 
nels » du SurroundingSound et des DirectiveSound de la zone correspon- 

dante.251 

14.15Construction recursive de I’organisation spatiale et du graphe audio. . . 252 

15.1 Cas d’usage etudie pour la substitution des DirectiveSound par un unique 
SurroundingSound. Les sources sonores sont placees en cercle autour de 
la position d’enregistrement et equireparties. La configuration des Sur¬ 


roundingSound et du systeme de diffusion est quadriphonique.254 

15.2 Premiere ancre : « downmix » stereophonique de la scene construite a 

I’aide de DirectiveSound .254 
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15.3 Deuxieme ancre : « downmix » monophonique de la scene construite a 

I’aide de Directivesound .255 

15.4 Les trois types de configuration spatiale pour un meme type de scene 
sonore. (a) N6 : six sources positionnees positionnees regulierement tons 
les 60° (-150°, -90°, -30°, 30°, 90 ° et 150°). (b) N3 : trois sources 
positionnees regulierement tons les 120 ° (-150 ° , -30 ° et 90 °). (c) N1 : 

une source positionnee a 90 °.255 

15.5 Les conditions T1 (a), T2 (b) et T3 (c), du plus petit an plus grand 

ecart par rapport a la position d’enregistrement.257 

15.6 Les conditions R1 (a), R2 (b) et R3 (c), du plus petit an plus grand 

ecart par rapport a I’orientation d’enregistrement.257 

15.7 Interface utilisee pour le test MUSHRA et pour revaluation preliminaire. 259 

15.8 Appui-tete utilise pour s’assurer que la tete des participants est bien 

positionnee an centre du carre de tiaut-parleurs.260 

15.9 Resultats de revaluation preliminaire : mediane du nombre de « positions 
spatiales pergues » pour les treize scenes sonores, dans leur version trois 
sources (a) et six sources (b). Les scenes entourees par un cadre bleu sont 
celles qui ont ete retenues pour revaluation, celles entourees par un cadre 

vert sont celles qui ont ete retenues pour la phase d’entrainement.261 

15.10Condition N1 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux translations T1 
(b), (c) et r5 (d).265 

15.11 Condition N3 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux translations T1 
{h), T2 {c) et T3 {d) .266 

15.12Condition N6 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux translations T1 
{h), T2 {c) et T3 {d) .267 

15.13Condition N1 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux rotations R1 (b), 

R2 {c)et R3 {d) .268 

15.14Condition N3 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux rotations R1 (b), 

R2 {c) et R3 {d) .269 

15.15Condition N6 : Modification de la configuration spatiale originale des 
DirectiveSound et du Surrounding Sound (a), suite aux rotations R1 (b), 

R2 (c) et R3 {d) .270 
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15.16Technique dite MDAP (pour Multiple-Direction Amplitude Panning). 
Pour faire varier sa largeur apparente, une source sonore est reproduite 
au moyen de deux sources virtuelles, comme pour la substitution d’un 
Directives ound par un Surrounding Sound, (a) Exemple de source d’azi- 
mut 30 ° et « d’angle de spread » de 30 ° . (b) Largeur de source pergue 
(moyenne sur cinq individus), en fonction de I’azimut (de - 10 ° a 60 °), 
pour un « angle de spread » de 0 ° , 20 ° et 30 ° (d’apres Pulkki [Pul99]). 
Les haut-parleurs sont positionnes respectivement a -90 ° , -30 ° , 30 ° et 


90°.272 

15.17Effet global du type de stimulus sur le jugement comparatif pour des 
scenes ne contenant qu’une seule source : (a) classement des non-experts 

et (b) classement des experts.273 

15.18Effet global du type de stimulus sur le jugement comparatif pour des 
scenes contenant trois sources : (a) classement des non-experts et (b) 

classement des experts.274 

15.19Effet global du type de stimulus sur le jugement comparatif pour des 
scenes contenant six sources : (a) classement des non-experts et (b) clas¬ 
sement des experts.275 

15.20Effet de la translation sur le rang des scenes Stereophoniques contenant 

une source sonore, pour les non-experts (a) et les experts (b).276 

15.21Effet de la translation sur le rang des scenes Surrounding Sound contenant 

une source sonore, pour les non-experts (a) et les experts (b).277 

15.22Effet de la translation sur le rang des scenes Stereophoniques contenant 

trois sources sonores, pour les non-experts (a) et les experts (b).278 

15.23Effet de la translation sur le rang des scenes Surrounding Sound contenant 

trois sources sonores, pour les non-experts (a) et les experts (b).279 

15.24Effet de la translation sur le rang des scenes Stereophoniques contenant 

six sources sonores, pour les non-experts (a) et les experts (b).280 

15.25Effet de la translation sur le rang des scenes Surrounding Sound contenant 

six sources sonores, pour les non-experts (a) et les experts (b).280 

15.26Effet de la rotation sur le rang des scenes Stereophoniques contenant une 

source sonore, pour les non-experts (a) et les experts (b).281 

15.27Effet de la rotation sur le rang des scenes SurroundingSound contenant 

une source sonore, pour les non-experts (a) et les experts (b).282 

15.28Effet de la rotation sur le rang des scenes Stereophoniques contenant trois 

sources sonores, pour les non-experts (a) et les experts (b).283 

15.29Effet de la rotation sur le rang des scenes SurroundingSound contenant 

trois sources sonores, pour les non-experts (a) et les experts (b).284 

15.30Effet de la rotation sur le rang des scenes Stereophoniques contenant six 

sources sonores, pour les non-experts (a) et les experts (b).285 

15.31Effet de la rotation sur le rang des scenes SurroundingSound contenant 

six sources sonores, pour les non-experts (a) et les experts (b).285 

15.32Effet du nombre de sources sur le rang des scenes Stereophoniques, pour 

les non-experts (a) et les experts (b).286 
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15.33Effet du nombre de sources sur le rang des scenes SurroundingSound, 

pour les non-experts (a) et les experts (b).287 

15.34Effet de la translation sur la comparaison des scenes Stereophoniques et 

SurroundingSound contenant une seule source sonore.288 

15.35Effet de la translation sur la comparaison des scenes Stereophoniques et 

SurroundingSound contenant trois sources sonores.289 

15.36Effet de la translation sur la comparaison des scenes Stereophoniques et 

SurroundingSound contenant six sources sonores.289 

15.37Effet de la rotation sur la comparaison des scenes Stereophoniques et 

SurroundingSound contenant une seule source sonore.290 

15.38Effet de la rotation sur la comparaison des scenes Stereophoniques et 

SurroundingSound contenant trois sources sonores.291 

15.39Effet de la rotation sur la comparaison des scenes Stereophoniques et 

SurroundingSound contenant six sources sonores.291 

15.40Effet du niveau d’expertise sur les notes respectives des scenes Stereopho¬ 
niques et SurroundingSound pour les conditions Nl, N3 et N6 .292 

15.41(a) Configuration quadriptionique en quinconee et (b) configuration tiexa- 

gonale reguliere.299 


16.1 Adaptation de la representation sonore des informations de distance et 
de direction d’une cible, lorsque le joueur n’est pas dans une zone, (a) Les 
balises contextualisees indiquent le chemin a prendre pour se rendre vers 
la sortie la plus proche de la zone ou se trouve la cible. (b) Les balises 
decontextualisees indiquent la position du centre de la zone ou se trouve 


la cible.313 

16.2 Organisation liierarctiique de I’environnement virtuel utilise pour I’expe- 

rience de navigation en vue subjective.314 

16.3 Representation spatiale lorsque le point d’ecoute n’est pas dans une zone. 315 

16.4 Representation spatiale lorsque le point d’ecoute est dans une zone. . . . 315 


16.5 Le projet Rennes Citevisions : representation d’informations georeferen- 

cees dans un espace virtuel 3D vraisemblable. (a) A petite ectielle, seules 
les photographies aeriennes sont affichees et (b) a grande echelle, les pho¬ 
tographies sont utilisees comme textures pour les maillages 3D des bati- 
ments.317 

16.6 Le jeu Black & White 2 : gestion de population dans un espace virtuel 3D 
vraisemblable. (a) A petite echelle un faisceau lumineux vertical indique 
la position des differentes cites, dont le champ d’action est figure par 
un contour de la meme couleur. A cette distance, seules les informations 
principales sont communiquees : le penchant a la bonte ou a la mechancete 
et la position de la creature, (b) A plus grande echelle, on pent percevoir 
(in-game) certaines informations relatives a la fonction des habitants, a 

la productivite, etc.318 
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16.7 Le jeu Civilization IV : gestion d’une civilisation dans un espace dispro- 

portionne. (a) A petite echelle, les information essentielles sont commu- 
niquees de fagon tres « compacte ». (b) A grande echelle, les unites, les 
ressources, les caracteristiques du terrain et toutes les caracteristiques 
d’une cite, pouvant renseigner de I’etat de la civilisation, sont exagere- 
ment disproportionnees.319 

16.8 Le service pages jaunes : representation spatiale schematique optimisee. 

(a) A petite echelle, ne sont representes que les grands axes rentiers, (b) 

A plus grande echelle, sont representes toutes les rues, leurs noms et un 
certain nombre d’informations contextuelles.320 

16.9 Reglage des parametres de I’attenutation avec la distance pour les Direc- 

tiveSound et les Surrounding Sound : maxdistance , mindistance, rolloff- 
scale et distancefactor (on Ref Distance) .321 

16.10Interface (accessible par le bouton « Dsp ») permettant de regler le filtrage 

passe-bas des sons des zones, autres que celle on se trouve le point d’ecoute.322 

16.11Exemple de matrice de parametres pour le filtrage {g, fc} (gain et fre¬ 
quence de coupure) des sons d’une zone.323 

16.12Creation des DirectiveSound en exportant piste par piste une scene sonore 

realisee a I’aide d’un logiciel de creation audio multipiste.326 


16.13 Alter native pour I’exportation de la scene VRML dans I’application ZARA. 


Soit I’utilisateur exporte, pour chaque zone, le Surrounding Sound et les 
DirectiveSound, soit il n’exporte que les DirectiveSound. Une fois charge 
le fichier « .zar » dans I’application, il est possible de reintroduire les Di¬ 
rectiveSound decrits par la fichier VRML. L’interface possede done deux 
representations de la scene, plus on moins redondantes, entre lesquelles 

elle pent alterner pour modifier le niveau de detail.327 

16.14Exportation des DirectiveSound seuls et cohabitation, an chargement du 

fichier « .zar », de deux Surrounding Sound .328 

15 Continuum de virtualite (d’apres Milgram et Kishino [MK94].348 










